Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

AIGC动态2个月前发布 Si-Planet
575 0 0
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

 

文章摘要


【关 键 词】 视频生成Meta公司技术超越AI服务器个性化视频

Meta公司发布了名为“Movie Gen”的视频模型,该模型在技术上超越了OpenAI Sora,尽管Sora的技术负责人转投Google,且Sora因质量问题尚未发布。Meta的模型不仅在效果上优于Sora,还采用了新的技术路线,表明Sora的技术路线已不再是行业领先。

Movie Gen是一系列模型的集合,旨在生成媒体内容。这包括一个基础的视频生成模型Movie Gen Video(300亿参数)和一个音频生成模型Movie Gen Audio(130亿参数)。此外,还有Personalized Movie Gen Video用于个性化视频生成,以及Movie Gen Edit用于视频编辑。这些模型能够生成长达16秒的逼真高清视频和48kHz的音频,并具备编辑视频的能力。

用户可以使用文本提示生成高清视频,上传自己的图像生成个性化视频,以及通过文本指令进行视频的局部编辑。Meta强调了其视频编辑功能,这是当前视频生成产品中的一个痛点。同时,Movie Gen能够生成与视频内容高度匹配和同步的高质量音效和音乐。

Meta的技术报告详细介绍了Movie Gen Video模型,这是一个300亿参数的基础模型,通过联合预训练处理了约1亿个视频和10亿张图像。该模型采用了Llama架构,而不是当前主流的DiT架构。Meta的研究科学家Andrew Brown指出,数据、算力和模型参数的重要性,以及Flow Matching技术的应用,使得Llama架构能够实现强大的视频生成能力。

Flow Matching基于轨迹学习,直接在潜在空间中学习从输入噪声到目标视频序列的映射轨迹,而不是通过扩散过程。这种方法使得Meta能够在不使用扩散模型的情况下,实现视频生成并超越了DiT路线的模型。

为了实现这一效果,Meta使用了6144个H100 GPU进行训练,每个GPU的功率为700W TDP,配备了80GB HBM3,并采用了Meta的Grand Teton AI服务器平台。训练任务由Meta的全球规模训练调度器Mast进行调度。

Meta还在模型的各个环节引入了创新技术,如时空自动编码器(TAE),以减少生成视频时的计算量。这些技术使得Meta能够使用更通用的架构来处理媒体生成任务,将图像和视频生成统一起来。

Meta希望通过展示Sora路线不是最优路线,吸引更多开发者基于Llama进行视频生成模型的开发和研究。Meta的模型家族不仅追求评测上的表现,还呈现出明显的实际应用导向,目标是用于Meta自己的社交媒体和计算平台生态中。Meta官方博客中提到,用户可以通过文字提示制作和编辑动画视频分享到Reels,或为朋友定制个性化的生日动画祝福,展示了创造力和自我表达的无限可能性。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2260字 | 10分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...