Meta版Sora无预警来袭！抛弃扩散损失，音视频生成/画面编辑全包，92页论文无保留公开

AIGC动态2年前 (2024)发布 QbitAI

3,470 0 0

Meta版Sora无预警来袭！抛弃扩散损失，音视频生成/画面编辑全包，92页论文无保留公开

文章摘要

Meta公司最近推出了一款名为Sora的先进视频生成工具，名为Meta Movie Gen，该工具在功能上超越了现有的视频生成技术。Meta Movie Gen能够创建高清长视频，支持1080p分辨率、16秒长、每秒16帧，并能生成配套的背景音乐和音效。此外，它还具备根据文本指令编辑视频的能力，以及根据用户上传的图像生成个性化视频的功能。

Meta公司声称，这是目前最先进的媒体基础模型。该工具能够执行精确的视频编辑，如添加、删除或替换元素，以及进行背景替换和样式更改等全局修改。在个性化视频方面，它在保持角色身份一致性和运动自然性方面达到了最先进的性能。

Meta Movie Gen由两个模型组成：视频生成模型和音频生成模型。视频生成模型是一个拥有30B参数的Transformer模型，能够从单个文本提示生成视频。音频生成模型则是一个13B参数的Transformer模型，可以生成与视频同步的高保真音频。

在技术实现上，Movie Gen采用了预训练-微调的范式。预训练阶段在大规模的视频-文本和图像-文本数据集上进行，以学习对视觉世界的理解。微调阶段则使用一小部分高质量视频进行有监督微调，以提升生成视频的运动流畅度和美学品质。

Meta在论文中强调了数据规模、模型大小、训练算力的扩展对于训练大规模媒体生成模型的重要性。他们完全放弃了扩散模型的扩散损失函数，转而使用Transformer作为骨干网络，以及流匹配作为训练目标，这使得视频生成的效果在精度和细节上优于扩散模型。

此外，Meta还开源了多个基准测试数据集，为后续研究者提供了评测工具，有助于推动整个领域的发展。

值得注意的是，就在Meta发布Movie Gen之前，OpenAI Sora的主要创作者之一Tim Brooks跳槽到了谷歌DeepMind，继续从事视频生成和世界模拟器方面的工作。这引发了人们对OpenAI是否会发布Sora以回应Meta的猜测。

总体来看，AI视频生成领域正在快速发展，Meta的发布会可能会推动OpenAI加快步伐，而AI视频编辑将成为下一个竞争的焦点。