与Sora同架构，高效、连贯文生视频模型

AIGC动态1年前 (2024)发布 AIGCOPEN

2,566 0 0

文章摘要

【关键词】 文本生成视频、Transformer架构、自适应建模、高效视频生成、影视行业应用

Snap Video是由Snap、特伦托大学、加州大学和布鲁诺凯斯勒基金会的研究人员联合推出的一款高效且具有连贯一致性的文本生成视频模型。该模型采用了与OpenAI最新推出的Sora相同的Transformer架构，结合了时空压缩表示、全局联合时空建模和自适应建模等先进技术，使得在生成视频质量、动作一致性以及复杂动作表现等方面表现卓越。

Snap Video的一个显著特点是其能够根据文本提示对原始视频素材进行剪辑和合成，生成满足特殊需求的定制化视频。这一功能对于短视频和影视行业具有巨大的帮助。为了评估Snap Video的性能，研究人员在UCF101和MSR-VTT数据集上进行了综合测试。测试结果显示，Snap Video在文本对齐、运动质量和动态效果方面可媲美Gen-2，且明显优于Pika和Floor33。

与传统的基于规则、样本或U-Net的视频生成方法相比，Snap Video在推理/训练效率和AI算力需求方面具有明显优势。例如，其训练效率比U-Net快3.31倍，推理速度快4.5倍。这主要得益于Snap Video使用的Transformer架构，以及研究人员对EDM框架的扩展。通过增加输入缩放因子、采用新的神经网络结构和重写框架定义，Snap Video在降低空间和时间冗余像素的同时，提升了模型质量和训练效率。

Snap Video的核心模块之一是Transformer，它包含多个自注意力层和前馈神经网络层，能够捕捉视频中的长期依赖关系和动态模式。此外，Snap Video采用了时空压缩表示的方法，将时空维度视为一个压缩的一维潜在向量，显著减少了模型中的参数数量和计算复杂度。通过全局联合时空建模策略，Snap Video在时空维度上共享参数，避免了重复计算，更好地捕捉视频中的长期依赖关系和动态模式。

Snap Video还引入了一种自适应建模机制，根据输入文本的语义信息对运动进行精确建模。通过自适应地调整模型的注意力和权重分配，模型可以更加准确地生成与文本描述相对应的运动。这一机制使得Snap Video在文本生成视频方面具有更高的灵活性和准确性。

总的来说，Snap Video作为一款高效、连贯一致性的文本生成视频模型，在视频质量、动作一致性和复杂动作表现等方面表现出色。其创新的架构和算法设计，使其在推理/训练效率和AI算力需求方面具有明显优势，为短视频和影视行业提供了一种新的解决方案。