大模型
LLM,VLM,模型
年轻人的AI新玩具:Vary-toy,1080Ti轻松驾驭的多模态大模型!
Vary-toy的核心目标是为视觉-语言模型提供更丰富的视觉词汇库,使其能够更准确地理解和描述复杂的视觉场景,提升了模型在文档OCR和对象检测等任务上的表现,...
大语言模型评测是怎么被玩儿烂的?我们跟知情人聊了一个下午
大模型评测面临着一些挑战,包括评测成本和时间成本高,以及数据泄露导致的过拟合问题。一些大模型公司通过刷题来提高分数,这已经成为公开的秘密。此外,评...
LLaMA-VID:突破视觉语言模型界限,精准捕捉图像精髓
LLaMA-VID模型的主要目标是处理长时视频,并面临着挑战。为了解决这些挑战,采用了创新的方法。该模型的技术方案包括采用了关键Token,并详细描述了其作用。L...
谷歌把GenAI装进Chrome
作者信息 【原文作者】 51CTO技术栈 【作者简介】 追踪 IT 新动向,赋能全球技术人员成长。 【微 信 号】 blog51cto 文章摘要 【关 键 词】 Ch...
OpenAI科学家Andrej Karpathy:LLM不想要成功,但你可以要求成功
第一个prompt是基础Prompt“番茄炒鸡蛋怎么做最好吃”,GPT4提供了简单的制作步骤和注意事项,但缺乏细节和原理的解释。第二个prompt是一步步思考的prompt“Let'...
AIGC-AI视频生成系列-12】DreamVideo: 自由定制生成视频主体+运动的生成模型,同样开源
文章首先介绍了i2vgen-xl项目,提供了github链接。然后详细介绍了视频生成的两个关键阶段:主体学习和运动学习。主体学习包括文本Embedding优化和ID-Adapter...
OpenAI宫斗参与者融了5.3亿,立刻给开发者分钱一起对抗GPT Store
Quora最近宣布从Andreessen Horowitz筹集了7500万美元,用于加速其AI聊天平台Poe的发展。Poe是一个AI聊天机器人平台,整合了市面上最新的主流大语言模型,提...
Amphion:用AI创造你的声音,让世界听见。
Amphion为研究人员提供了强大的研究工具,也为工程师们提供了一个实用的开发环境。它在音频、音乐和语音生成领域展现出了雄心,预示着未来的发展方向。通过不...
浙大发布Agent学习框架,13B 模型达到 ChatGPT 水平!
实验结果显示,AUTOACT方法在Llama-2 13B和70B基础下训练出的Agent优于其他所有直接提示方法、CoT与Agent方法。在HotpotQA实现了3.77%的提升,在ScienceQA上...
文心、讯飞、ChatGPT大模型的横向比较
作者信息 【原文作者】 李孟聊AI 【作者简介】 独立开源软件开发者,SolidUI作者。老程序员,老扑街作者,依然奋战在开源一线,依然热爱写文章。https://ww...