Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

1,833 0 0

文章摘要

智源研究院最近发布了一款名为Emu3的原生多模态世界模型，该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据，而无需依赖扩散模型或组合方法。Emu3在多个任务中表现出色，超越了SDXL、LLaVA、OpenSora等知名开源模型。该模型提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token，这些token可以与文本tokenizer输出的token一起输入模型，输出的离散token也可以被转换为文本、图像和视频，为Any-to-Any任务提供了统一的研究范式。

Emu3在图像生成任务中基于人类偏好评测优于SD-1.5与SDXL模型，在视觉语言理解任务中的平均得分优于LlaVA-1.6，在视频生成任务中的得分优于OpenSora 1.2。Emu3的下一个token预测框架的灵活性使得直接偏好优化（DPO）可以无缝应用于自回归视觉生成，使模型与人类偏好保持一致。研究结果表明，下一个token预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。

Emu3的技术细节包括在语言、图像和视频混合数据模态上从头开始训练，使用与Aquila模型相同的语言数据，构建了一个大型图像文本数据集，收集的视频涵盖多个类别。Emu3在架构上保留了主流大语言模型的网络架构，扩展了嵌入层以容纳离散的视觉token，并使用了多项技术提高训练的稳定性和性能。预训练过程中，Emu3原生集成了用于生成图像/视频的文本条件信息，新增了五个特殊token来合并文本和视觉数据，为训练过程创建类似文档的输入。

Emu3的发布在社交媒体和技术社区引起了热议，被认为是几个月以来最重要的研究，非常接近拥有一个处理所有数据模态的单一架构。Emu3的统一方法将带来更高效、更多功能的AI系统，简化多模态AI的开发和应用以及内容生成、分析和理解的新可能性。Emu3的开源灵活性将为开发者和企业解锁人工智能创新能力的机会。