文章摘要
【关 键 词】 AI视频、Meta公司、高清视频、音频同步、模型开源
Meta公司最近推出了一款名为Sora的先进视频生成工具,名为Meta Movie Gen,该工具在功能上超越了现有的视频生成技术。Meta Movie Gen能够创建高清长视频,支持1080p分辨率、16秒长、每秒16帧,并能生成配套的背景音乐和音效。此外,它还具备根据文本指令编辑视频的能力,以及根据用户上传的图像生成个性化视频的功能。
Meta公司声称,这是目前最先进的媒体基础模型。该工具能够执行精确的视频编辑,如添加、删除或替换元素,以及进行背景替换和样式更改等全局修改。在个性化视频方面,它在保持角色身份一致性和运动自然性方面达到了最先进的性能。
Meta Movie Gen由两个模型组成:视频生成模型和音频生成模型。视频生成模型是一个拥有30B参数的Transformer模型,能够从单个文本提示生成视频。音频生成模型则是一个13B参数的Transformer模型,可以生成与视频同步的高保真音频。
在技术实现上,Movie Gen采用了预训练-微调的范式。预训练阶段在大规模的视频-文本和图像-文本数据集上进行,以学习对视觉世界的理解。微调阶段则使用一小部分高质量视频进行有监督微调,以提升生成视频的运动流畅度和美学品质。
Meta在论文中强调了数据规模、模型大小、训练算力的扩展对于训练大规模媒体生成模型的重要性。他们完全放弃了扩散模型的扩散损失函数,转而使用Transformer作为骨干网络,以及流匹配作为训练目标,这使得视频生成的效果在精度和细节上优于扩散模型。
此外,Meta还开源了多个基准测试数据集,为后续研究者提供了评测工具,有助于推动整个领域的发展。
值得注意的是,就在Meta发布Movie Gen之前,OpenAI Sora的主要创作者之一Tim Brooks跳槽到了谷歌DeepMind,继续从事视频生成和世界模拟器方面的工作。这引发了人们对OpenAI是否会发布Sora以回应Meta的猜测。
总体来看,AI视频生成领域正在快速发展,Meta的发布会可能会推动OpenAI加快步伐,而AI视频编辑将成为下一个竞争的焦点。
原文和模型
【原文链接】 阅读原文 [ 2755字 | 12分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★