超越Sora！全球首个带背景音乐，文生1080超高清视频模型

AIGC动态1年前 (2024)发布 AIGCOPEN

2,644 0 0

文章摘要

【关键词】 AIGC、文本生成、视频编辑、Transformer、个性化视频

Meta公司推出了一款名为Movie Gen的大模型，标志着其正式进入文本生成视频（AIGC）领域。该模型拥有300亿参数，能够以每秒16帧的速度生成16秒长的1080P超高清视频，并具备视频剪辑、个性化功能和不同宽高比适配等多样化功能。Movie Gen的最大技术亮点在于其能够直接生成带有精准配乐的视频，这是目前市场上其他一线产品如Sora、Runway、Luma等所不具备的。

Movie Gen的核心模块是文生视频，基于Transformer架构开发，专门优化了文本到图像和文本到视频的生成。该模块能够生成长达16秒、每秒16帧的1080P超高清视频，并支持73K token上下文。它通过理解文本提示并结合预训练时学习到的视觉知识，生成与文本描述相匹配的视频内容。技术创新包括推理对象运动、主体-对象交互和相机运动，以生成各种概念的合理动作。

在训练过程中，Meta采用了大规模的互联网图像、视频和音频数据，并通过复杂的数据策划和过滤流程，确保了模型训练数据的多样性和质量。为了提高生成视频的质量和一致性，还引入了监督式微调，使用人工策划的高质量视频数据对模型进行进一步的训练。

个性化视频生成是在基础视频模型上进行的扩展，支持生成包含特定人物身份的视频内容。Meta使用了一种全新的训练策略，通过在模型训练中加入人脸图像和文本提示的配对数据，使模型学会如何将特定的人物身份信息融入到视频生成过程中。

精确视频编辑是Movie Gen的另一大技术创新，允许用户通过文本提示对视频进行精确编辑，包括添加、移除或替换视频中的元素，以及进行背景或风格的全局性修改。

能生成带背景音乐的视频，流匹配和DiT是关键技术。流匹配是一种创新的生成式建模方法，通过构建一个最优传输路径来指导生成过程，确保生成的内容既连贯又富有创意。DiT是一种经过调整的变压器架构，能够更好地处理音频数据。

为了适配不同的设备，Movie Gen使用了一种因子化的可学习位置嵌入方式，可以灵活地适应不同尺寸、宽高比以及视频长度的输入，避免了传统固定长度位置编码带来的限制。

为了降低性能消耗，Movie Gen引入了多维度并行化策略，包括数据并行、张量并行、序列并行以及上下文并行。这种三维并行化设计允许模型在参数数量、输入token数和数据集大小三个轴向上进行扩展，同时也能横向扩展至更多的GPU设备上。

尽管Meta尚未公布开源该模型，但Movie Gen的发布已经引起了广泛关注，许多人对其全面化功能表示震惊，并期待其在电影制作等领域的应用。