预测下个token就能通往AGI，智源Emu3有世界模型的味儿了

2,157 0 0

文章摘要

【关键词】 多模态、AI模型、视觉tokenizer、开源技术、性能先进

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3，这是一个基于下一个token预测的模型，能够处理文本、图像、视频三种模态数据的理解和生成，而无需依赖扩散模型或组合方法。Emu3在图像生成、视频生成、视觉语言理解等任务中的表现超过了SDXL、LLaVA、OpenSora等知名开源模型。

Emu3的核心是一个强大的视觉tokenizer，能够将视频和图像转换为离散token，这些token可以与文本tokenizer输出的token一起输入模型，输出的token也可以转换为文本、图像和视频。这一机制为Any-to-Any任务提供了统一的研究范式。Emu3的下一个token预测框架的灵活性使得直接偏好优化（DPO）可以应用于自回归视觉生成，使模型与人类偏好保持一致。

Emu3的研究结果表明，下一个token预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身，Emu3在大规模训练和推理中释放了巨大的潜力，为构建多模态AGI提供了一条前景广阔的道路。Emu3的关键技术和模型已经开源，引起了社交媒体和技术社区的热议，被认为可能彻底改变多模态AI领域，提供无与伦比的性能和灵活性。

Emu3的技术细节包括在语言、图像和视频混合数据模态上从头开始训练，使用了一个大型图像文本数据集和视频数据，并通过场景切分、文本过滤、光流过滤、质量评分等阶段处理视频。Emu3的视觉tokenizer基于SBER-MoVQGAN训练，能够将视频片段或图像编码成离散token。Emu3保留了主流大语言模型的网络架构，并进行了扩展以容纳离散的视觉token。预训练过程中，Emu3定义了多模态数据格式，并使用标准的交叉熵损失进行训练。预训练分为两个阶段，第一阶段不使用视频数据，第二阶段引入视频数据。Emu3的SFT阶段包括视觉生成等任务。