Meta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑
文章摘要
【关 键 词】 人工智能、视频生成、音频同步、高质量、技术创新
Meta公司最近公开展示了其名为Movie Gen的突破性生成式人工智能研究项目,该项目旨在为电影制作人和视频创作者提供提高创造力的工具。Movie Gen的功能包括文本生成视频和音频、编辑现有视频以及图片生成视频。人类评估显示,Movie Gen在这些任务上的表现超过了行业内的类似模型。
Movie Gen能够生成高质量的视频,例如一个小女孩在海滩上奔跑的场景,视频中衣服的褶皱细节处理得非常逼真。它还能够生成动物,如猴子,其毛发和动作都非常逼真。此外,Movie Gen能够处理视频的长时间序列,并保持人物动作的逼真度,尽管每一帧可能仍有改进空间。
Movie Gen的另一个显著特点是其音频生成能力。它能够为视频生成匹配的背景音乐和音效,如瀑布的水声,与视频内容同步。Meta公司表示,Movie Gen的音频生成模型能够生成长达45秒的高质量音频,并且与视频内容同步。
在技术层面,Movie Gen采用了一个30B参数的Transformer模型,能够生成最多16秒、16 FPS的视频。该模型通过时间自动编码器模型训练了一个时空压缩的隐空间,然后基于此训练了一个生成模型。Meta使用了多达6144台H100 GPU进行训练,并采用了多阶段训练方法。
此外,Meta还开发了个性化视频功能,允许用户通过提供人物图像输入和文本提示词来生成包含该人物的视频。Movie Gen还能够进行精确的视频编辑,包括添加、移除和替换元素,修改背景和风格等。
Meta在多个技术方面进行了创新,包括架构、训练目标、数据处理方法、评估协议和推理优化。人类A/B评估结果显示,与行业内其他模型相比,人们更倾向于选择Movie Gen。
尽管Meta尚未明确是否会免费发布Movie Gen,但这一展示无疑使其成为视频生成领域的又一强力竞争者。
原文和模型
【原文链接】 阅读原文 [ 3928字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★