文章摘要
【关 键 词】 AIGC、文本生成、视频编辑、Transformer、个性化视频
Meta公司推出了一款名为Movie Gen的大模型,标志着其正式进入文本生成视频(AIGC)领域。该模型拥有300亿参数,能够以每秒16帧的速度生成16秒长的1080P超高清视频,并具备视频剪辑、个性化功能和不同宽高比适配等多样化功能。Movie Gen的最大技术亮点在于其能够直接生成带有精准配乐的视频,这是目前市场上其他一线产品如Sora、Runway、Luma等所不具备的。
Movie Gen的核心模块是文生视频,基于Transformer架构开发,专门优化了文本到图像和文本到视频的生成。该模块能够生成长达16秒、每秒16帧的1080P超高清视频,并支持73K token上下文。它通过理解文本提示并结合预训练时学习到的视觉知识,生成与文本描述相匹配的视频内容。技术创新包括推理对象运动、主体-对象交互和相机运动,以生成各种概念的合理动作。
在训练过程中,Meta采用了大规模的互联网图像、视频和音频数据,并通过复杂的数据策划和过滤流程,确保了模型训练数据的多样性和质量。为了提高生成视频的质量和一致性,还引入了监督式微调,使用人工策划的高质量视频数据对模型进行进一步的训练。
个性化视频生成是在基础视频模型上进行的扩展,支持生成包含特定人物身份的视频内容。Meta使用了一种全新的训练策略,通过在模型训练中加入人脸图像和文本提示的配对数据,使模型学会如何将特定的人物身份信息融入到视频生成过程中。
精确视频编辑是Movie Gen的另一大技术创新,允许用户通过文本提示对视频进行精确编辑,包括添加、移除或替换视频中的元素,以及进行背景或风格的全局性修改。
能生成带背景音乐的视频,流匹配和DiT是关键技术。流匹配是一种创新的生成式建模方法,通过构建一个最优传输路径来指导生成过程,确保生成的内容既连贯又富有创意。DiT是一种经过调整的变压器架构,能够更好地处理音频数据。
为了适配不同的设备,Movie Gen使用了一种因子化的可学习位置嵌入方式,可以灵活地适应不同尺寸、宽高比以及视频长度的输入,避免了传统固定长度位置编码带来的限制。
为了降低性能消耗,Movie Gen引入了多维度并行化策略,包括数据并行、张量并行、序列并行以及上下文并行。这种三维并行化设计允许模型在参数数量、输入token数和数据集大小三个轴向上进行扩展,同时也能横向扩展至更多的GPU设备上。
尽管Meta尚未公布开源该模型,但Movie Gen的发布已经引起了广泛关注,许多人对其全面化功能表示震惊,并期待其在电影制作等领域的应用。
原文和模型
【原文链接】 阅读原文 [ 2407字 | 10分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★