Sora这就落伍了？Meta“最强视频模型”不用DiT，用Llama大力出奇迹了

1,600 0 0

文章摘要

Meta公司发布了名为“Movie Gen”的视频模型，该模型在技术上超越了OpenAI Sora，尽管Sora的技术负责人转投Google，且Sora因质量问题尚未发布。Meta的模型不仅在效果上优于Sora，还采用了新的技术路线，表明Sora的技术路线已不再是行业领先。

Movie Gen是一系列模型的集合，旨在生成媒体内容。这包括一个基础的视频生成模型Movie Gen Video（300亿参数）和一个音频生成模型Movie Gen Audio（130亿参数）。此外，还有Personalized Movie Gen Video用于个性化视频生成，以及Movie Gen Edit用于视频编辑。这些模型能够生成长达16秒的逼真高清视频和48kHz的音频，并具备编辑视频的能力。

用户可以使用文本提示生成高清视频，上传自己的图像生成个性化视频，以及通过文本指令进行视频的局部编辑。Meta强调了其视频编辑功能，这是当前视频生成产品中的一个痛点。同时，Movie Gen能够生成与视频内容高度匹配和同步的高质量音效和音乐。

Meta的技术报告详细介绍了Movie Gen Video模型，这是一个300亿参数的基础模型，通过联合预训练处理了约1亿个视频和10亿张图像。该模型采用了Llama架构，而不是当前主流的DiT架构。Meta的研究科学家Andrew Brown指出，数据、算力和模型参数的重要性，以及Flow Matching技术的应用，使得Llama架构能够实现强大的视频生成能力。

Flow Matching基于轨迹学习，直接在潜在空间中学习从输入噪声到目标视频序列的映射轨迹，而不是通过扩散过程。这种方法使得Meta能够在不使用扩散模型的情况下，实现视频生成并超越了DiT路线的模型。

为了实现这一效果，Meta使用了6144个H100 GPU进行训练，每个GPU的功率为700W TDP，配备了80GB HBM3，并采用了Meta的Grand Teton AI服务器平台。训练任务由Meta的全球规模训练调度器Mast进行调度。

Meta还在模型的各个环节引入了创新技术，如时空自动编码器（TAE），以减少生成视频时的计算量。这些技术使得Meta能够使用更通用的架构来处理媒体生成任务，将图像和视频生成统一起来。

Meta希望通过展示Sora路线不是最优路线，吸引更多开发者基于Llama进行视频生成模型的开发和研究。Meta的模型家族不仅追求评测上的表现，还呈现出明显的实际应用导向，目标是用于Meta自己的社交媒体和计算平台生态中。Meta官方博客中提到，用户可以通过文字提示制作和编辑动画视频分享到Reels，或为朋友定制个性化的生日动画祝福，展示了创造力和自我表达的无限可能性。