大模型

LLM,VLM,模型

年轻人的AI新玩具:Vary-toy,1080Ti轻松驾驭的多模态大模型!

Vary-toy的核心目标是为视觉-语言模型提供更丰富的视觉词汇库,使其能够更准确地理解和描述复杂的视觉场景,提升了模型在文档OCR和对象检测等任务上的表现,...

大语言模型评测是怎么被玩儿烂的?我们跟知情人聊了一个下午

大模型评测面临着一些挑战,包括评测成本和时间成本高,以及数据泄露导致的过拟合问题。一些大模型公司通过刷题来提高分数,这已经成为公开的秘密。此外,评...

LLaMA-VID:突破视觉语言模型界限,精准捕捉图像精髓

LLaMA-VID模型的主要目标是处理长时视频,并面临着挑战。为了解决这些挑战,采用了创新的方法。该模型的技术方案包括采用了关键Token,并详细描述了其作用。L...

谷歌把GenAI装进Chrome

作者信息 【原文作者】 51CTO技术栈 【作者简介】 追踪 IT 新动向,赋能全球技术人员成长。 【微 信 号】 blog51cto   文章摘要 【关 键 词】 Ch...

OpenAI科学家Andrej Karpathy:LLM不想要成功,但你可以要求成功

第一个prompt是基础Prompt“番茄炒鸡蛋怎么做最好吃”,GPT4提供了简单的制作步骤和注意事项,但缺乏细节和原理的解释。第二个prompt是一步步思考的prompt“Let'...

AIGC-AI视频生成系列-12】DreamVideo: 自由定制生成视频主体+运动的生成模型,同样开源

文章首先介绍了i2vgen-xl项目,提供了github链接。然后详细介绍了视频生成的两个关键阶段:主体学习和运动学习。主体学习包括文本Embedding优化和ID-Adapter...

OpenAI宫斗参与者融了5.3亿,立刻给开发者分钱一起对抗GPT Store

Quora最近宣布从Andreessen Horowitz筹集了7500万美元,用于加速其AI聊天平台Poe的发展。Poe是一个AI聊天机器人平台,整合了市面上最新的主流大语言模型,提...

Amphion:用AI创造你的声音,让世界听见。

Amphion为研究人员提供了强大的研究工具,也为工程师们提供了一个实用的开发环境。它在音频、音乐和语音生成领域展现出了雄心,预示着未来的发展方向。通过不...

浙大发布Agent学习框架,13B 模型达到 ChatGPT 水平!

实验结果显示,AUTOACT方法在Llama-2 13B和70B基础下训练出的Agent优于其他所有直接提示方法、CoT与Agent方法。在HotpotQA实现了3.77%的提升,在ScienceQA上...

文心、讯飞、ChatGPT大模型的横向比较

作者信息 【原文作者】 李孟聊AI 【作者简介】 独立开源软件开发者,SolidUI作者。老程序员,老扑街作者,依然奋战在开源一线,依然热爱写文章。https://ww...
1 419 420 421 422 423 426