文章摘要
【关 键 词】 多模态、AI模型、文本图像、视觉语言、开源创新
智源研究院最近发布了一款名为Emu3的原生多模态世界模型,该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据,而无需依赖扩散模型或组合方法。Emu3在多个任务中表现出色,超越了SDXL、LLaVA、OpenSora等知名开源模型。该模型提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些token可以与文本tokenizer输出的token一起输入模型,输出的离散token也可以被转换为文本、图像和视频,为Any-to-Any任务提供了统一的研究范式。
Emu3在图像生成任务中基于人类偏好评测优于SD-1.5与SDXL模型,在视觉语言理解任务中的平均得分优于LlaVA-1.6,在视频生成任务中的得分优于OpenSora 1.2。Emu3的下一个token预测框架的灵活性使得直接偏好优化(DPO)可以无缝应用于自回归视觉生成,使模型与人类偏好保持一致。研究结果表明,下一个token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。
Emu3的技术细节包括在语言、图像和视频混合数据模态上从头开始训练,使用与Aquila模型相同的语言数据,构建了一个大型图像文本数据集,收集的视频涵盖多个类别。Emu3在架构上保留了主流大语言模型的网络架构,扩展了嵌入层以容纳离散的视觉token,并使用了多项技术提高训练的稳定性和性能。预训练过程中,Emu3原生集成了用于生成图像/视频的文本条件信息,新增了五个特殊token来合并文本和视觉数据,为训练过程创建类似文档的输入。
Emu3的发布在社交媒体和技术社区引起了热议,被认为是几个月以来最重要的研究,非常接近拥有一个处理所有数据模态的单一架构。Emu3的统一方法将带来更高效、更多功能的AI系统,简化多模态AI的开发和应用以及内容生成、分析和理解的新可能性。Emu3的开源灵活性将为开发者和企业解锁人工智能创新能力的机会。
原文和模型
【原文链接】 阅读原文 [ 4134字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆