Meta又给OpenAI一记重击，视频生成Movie Gen震撼登场，甚至可以配音、编辑

AIGC动态2年前 (2024)发布 almosthuman2014

3,917 0 0

Meta又给OpenAI一记重击，视频生成Movie Gen震撼登场，甚至可以配音、编辑

文章摘要

Meta公司最近公开展示了其名为Movie Gen的突破性生成式人工智能研究项目，该项目旨在为电影制作人和视频创作者提供提高创造力的工具。Movie Gen的功能包括文本生成视频和音频、编辑现有视频以及图片生成视频。人类评估显示，Movie Gen在这些任务上的表现超过了行业内的类似模型。

Movie Gen能够生成高质量的视频，例如一个小女孩在海滩上奔跑的场景，视频中衣服的褶皱细节处理得非常逼真。它还能够生成动物，如猴子，其毛发和动作都非常逼真。此外，Movie Gen能够处理视频的长时间序列，并保持人物动作的逼真度，尽管每一帧可能仍有改进空间。

Movie Gen的另一个显著特点是其音频生成能力。它能够为视频生成匹配的背景音乐和音效，如瀑布的水声，与视频内容同步。Meta公司表示，Movie Gen的音频生成模型能够生成长达45秒的高质量音频，并且与视频内容同步。

在技术层面，Movie Gen采用了一个30B参数的Transformer模型，能够生成最多16秒、16 FPS的视频。该模型通过时间自动编码器模型训练了一个时空压缩的隐空间，然后基于此训练了一个生成模型。Meta使用了多达6144台H100 GPU进行训练，并采用了多阶段训练方法。

此外，Meta还开发了个性化视频功能，允许用户通过提供人物图像输入和文本提示词来生成包含该人物的视频。Movie Gen还能够进行精确的视频编辑，包括添加、移除和替换元素，修改背景和风格等。

Meta在多个技术方面进行了创新，包括架构、训练目标、数据处理方法、评估协议和推理优化。人类A/B评估结果显示，与行业内其他模型相比，人们更倾向于选择Movie Gen。

尽管Meta尚未明确是否会免费发布Movie Gen，但这一展示无疑使其成为视频生成领域的又一强力竞争者。

原文和模型

【原文链接】 阅读原文 [ 3928字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # AI大模型 # 图像生成 # 视频生成 # 音频生成 # 人工智能

文章版权归作者所有，未经允许请勿转载。

陶哲轩最新采访：AI将颠覆数学界！用Lean规模化，成百上千条定理一次秒杀

新智元

4,342

OpenAI一夜改写历史，GPT-4o干翻所有语音助手！丝滑如真人引爆全网科幻成真

新智元

4,217

李开复：我坚决做to C，不做赔钱的to B生意；张亚勤：大模型效率太低、还未能真正理解物理世界｜钛媒体 AGI

钛媒体AGI

4,020

大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界

新智元

3,426

她们正在影响AI进程

量子位

2,858

从「被动」到「主动」，为什么给耳机装上「眼睛」后AI范式变了？

机器之心

740

暂无评论

暂无评论...

Meta又给OpenAI一记重击，视频生成Movie Gen震撼登场，甚至可以配音、编辑

文章摘要

原文和模型

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

国外游戏作家：吓死了，谷歌NotebookLM的假AI播客正在评论我的书！

相关文章

暂无评论

热门网址

热门文章

Meta又给OpenAI一记重击，视频生成Movie Gen震撼登场，甚至可以配音、编辑

文章摘要

原文和模型

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

国外游戏作家：吓死了，谷歌NotebookLM的假AI播客正在评论我的书！

相关文章

暂无评论

AstronClaw-安全养虾

LibTV-AI视频创作

讯飞AI大学堂

热门网址

热门文章