预测下个token就能通往AGI,智源Emu3有世界模型的味儿了

AIGC动态3个月前发布 Si-Planet
721 0 0
预测下个token就能通往AGI,智源Emu3有世界模型的味儿了

 

文章摘要


【关 键 词】 多模态AI模型视觉tokenizer开源技术性能先进

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够处理文本、图像、视频三种模态数据的理解和生成,而无需依赖扩散模型或组合方法。Emu3在图像生成、视频生成、视觉语言理解等任务中的表现超过了SDXL、LLaVA、OpenSora等知名开源模型。

Emu3的核心是一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些token可以与文本tokenizer输出的token一起输入模型,输出的token也可以转换为文本、图像和视频。这一机制为Any-to-Any任务提供了统一的研究范式。Emu3的下一个token预测框架的灵活性使得直接偏好优化(DPO)可以应用于自回归视觉生成,使模型与人类偏好保持一致。

Emu3的研究结果表明,下一个token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身,Emu3在大规模训练和推理中释放了巨大的潜力,为构建多模态AGI提供了一条前景广阔的道路。Emu3的关键技术和模型已经开源,引起了社交媒体和技术社区的热议,被认为可能彻底改变多模态AI领域,提供无与伦比的性能和灵活性。

Emu3的技术细节包括在语言、图像和视频混合数据模态上从头开始训练,使用了一个大型图像文本数据集和视频数据,并通过场景切分、文本过滤、光流过滤、质量评分等阶段处理视频。Emu3的视觉tokenizer基于SBER-MoVQGAN训练,能够将视频片段或图像编码成离散token。Emu3保留了主流大语言模型的网络架构,并进行了扩展以容纳离散的视觉token。预训练过程中,Emu3定义了多模态数据格式,并使用标准的交叉熵损失进行训练。预训练分为两个阶段,第一阶段不使用视频数据,第二阶段引入视频数据。Emu3的SFT阶段包括视觉生成等任务。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4190字 | 17分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...