标签:多模态

讯飞星火爆震撼大招,七项第一11个首发!年度最逼真虚拟人萌翻全场,多模态抢先GPT-4o

在2024科大讯飞全球1024开发者节上,科大讯飞发布了讯飞星火4.0 Turbo,这是首个基于全国产算力训练的全面开放大模型。该模型在9项国际主流测试集中均取得第...

安卓版下载量超2亿!科大讯飞的星火4.0 Turbo性能效率提升50%,7项能力超越GPT-4 Turbo|钛媒体AGI

科大讯飞在1024开发者节上宣布了讯飞星火4.0 Turbo的全新升级,该版本在七大能力上全面超越了GPT-4 Turbo,特别是在数学和代码能力上。预计到年底,讯飞星火...

全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向|钛媒体AGI

北京智源人工智能研究院(BAAI)近日发布了全球首个原生多模态世界模型Emu3,该模型采用了自回归技术路线,参数量达到8B(80亿),能够将图像、文本和视频编...

预测下个token就能通往AGI,智源Emu3有世界模型的味儿了

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够处理文本、图像、视频三种模态数据的理解和生成,而无需...

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够在无需扩散模型或组合方法的情况下,完成文本、图像、视...

Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3

智源研究院发布了原生多模态世界模型Emu3,该模型基于下一个token预测,无需依赖扩散模型或组合方法,能够完成文本、图像、视频三种模态数据的理解和生成。Em...

Ilya预言成真,下一个token预测直达AGI!智源首发原生多模态世界模型Emu3,不用扩散

智源研究院最近发布了一款名为Emu3的原生多模态世界模型,该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据,而无需依赖扩散模型或组合方...

智源 Emu3 证明多模态模型新范式:只需基于下一个 token 预测

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这一模型仅通过预测下一个token,就能实现对文本、图像、视频三种模态数据的理解和生成,无需依赖...

SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

Meta公司近期分享了一系列研究和模型,旨在推动高级机器智能(AMI)的发展,并促进开放科学和可复现性。这些研究涵盖了AMI的多个构建模块,如感知、语音和语...

长文本、语音、视觉、结构化数据全覆盖,中国移动九天善智多模态大模型震撼发布

中国移动在第十二届全球合作伙伴大会上发布了九天善智多模态基座大模型,标志着其在人工智能领域的全面升级。该模型以全栈国产化和复杂系统智能化为特点,展...
1 9 10 11 12 13 24