Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功

AIGC动态1年前 (2024)发布 AIera

2,497 0 0

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功

文章摘要

Meta公司最近推出了一款名为Movie Gen的先进媒体基础模型，该模型包括两个部分：Movie Gen Video和Movie Gen Audio。Movie Gen Video是一个具有30B参数的Transformer模型，能够根据文本提示生成1080p、16秒、每秒16帧的高清视频。它采用了Llama 3架构，并在大约1亿个视频和10亿张图像上进行了预训练。该模型不仅能够生成视频，还能理解物理世界中的物体运动和交互。

Movie Gen Video的一个关键创新是采用了“流匹配”训练方法，这种方法在生成视频的精度和细节上优于传统的扩散模型。它通过学习样本从初始噪声状态向目标数据分布的转化过程，以更高的训练效率和更低的计算成本生成高质量的视频。

此外，Movie Gen Video还引入了多种技术创新，包括因子化可学习编码的位置编码方法，以及线性-二次时间步长的策略，这些都显著提升了模型的推理速度和效率。

Movie Gen Audio是一个13B参数的模型，能够通过视频输入和文本提示生成最长45秒的高保真音频。这使得Movie Gen能够为视频生成同步的音效和背景音乐。

Meta公司还发布了一篇92页的论文，详细介绍了Movie Gen的架构、训练方法和实验结果。论文中提到，Movie Gen Video在美学和运动质量方面进行了微调，并且在生成图像质量上超越了现有的一些先进模型。

Movie Gen还具备个性化视频生成功能，用户可以上传自己的图像来生成个性化视频，同时保留人物的身份和动作。此外，它还能够编辑现有视频，支持精确的视频编辑，包括样式、过渡和精细编辑。

尽管Movie Gen目前还未向公众开放，预计将在明年推出，但其展示的技术进步和潜力已经引起了业界的广泛关注。Meta的这一举措可能会激发其他公司推出更多创新的AI视频产品。