国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

AIGC动态2年前 (2024)发布 almosthuman2014

1,957 0 0

作者信息

【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微信号】 almosthuman2014

文章摘要

【关键词】 Diffusion Transformer、Video Diffusion Transformer、VDT、Sora、机器之心

摘要：
OpenAI Sora的发布标志着视频生成领域的重大突破。Sora基于Diffusion Transformer架构，与主流的2D Stable Diffusion方法不同。这项工作由中国人民大学研究团队主导，并与加州大学伯克利分校、香港大学等合作，提出了基于Transformer的视频统一生成框架——Video Diffusion Transformer (VDT)。VDT在视频生成领域的优越性体现在其强大的token化和注意力机制，能够捕捉长期或不规则的时间依赖性。VDT的创新之处在于将Transformer技术应用于基于扩散的视频生成，提出了统一的时空掩码建模机制，实现了技术的广泛应用。VDT框架与Sora相似，但在实现细节上存在细微差别。VDT在网络结构上进行了部分消融研究，证明了模型性能与GFlops强相关。VDT的测试结果展示了Transformer架构在处理视频数据生成方面的有效性和灵活性。

详细摘要：

1. VDT的优越性与创新：
– VDT采用Transformer架构，与图像设计的U-Net不同，能够更好地处理时间维度。
– Transformer的可扩展性使其适合视频生成挑战，如PaLM模型的540B参数。
– VDT实现了多种视频生成任务的统一，包括无条件生成、视频预测、插值和文本到图像生成。

2. VDT的网络架构：
– VDT框架包括输入/输出特征、线性嵌入和时空Transformer Block。
– VDT与Sora在实现细节上的差异主要在于注意力机制的处理方式和文本条件的融合。
– VDT在视频预测任务上展示了快速收敛速度和优越的表现。

3. VDT的性能评测：
– VDT模型在无条件视频生成和视频预测任务上表现出灵活性和可扩展性。
– VDT在Physion数据集上成功模拟了物理过程，证明了Transformer架构可以学习物理规律。
– 结构消融研究表明，模型性能与GFlops强相关，而模型结构细节影响不大。

4. 结论：
– VDT为视频生成技术提供了新的方向和可能性。
– 期待未来研究在VDT基础上进一步探索视频生成技术的新方向和应用。