阿里发布轨迹可控的DiT视频生成模型—Tora

2,177 0 0

文章摘要

视频生成技术在近年来取得了显著进展，特别是在运动控制方面。阿里云提出的基于Diffusion Transformer (DiT) 架构的轨迹可控视频生成模型Tora，通过其创新架构和训练策略，实现了在720p分辨率下长达204帧的稳定运动视频生成。Tora模型不仅继承了DiT的scaling特性，生成的运动模式也更流畅且符合物理世界规律。

Tora模型由三个主要部分组成：Spatial-Temporal Denoising Diffusion Transformer (ST-DiT)、Trajectory Extractor (TE) 和 Motion-guidance Fuser (MGF)。ST-DiT通过时空视觉补丁的压缩和变换器块进行噪声预测，而TE和MGF则负责将用户提供的轨迹编码为时空运动补丁，并整合到DiT块中，确保生成视频的运动与预定义轨迹一致。

在轨迹提取方面，Tora采用了3D motion VAE将轨迹向量嵌入到潜在空间中，并通过高斯滤波减轻发散问题。MGF则通过自适应归一化层动态调整特征，以维持视频运动的连续性和自然性。

Tora的训练采用了改进的数据处理流程，结合运动分割结果和光流分数，提高了对前景物体轨迹的跟随准确率。训练视频来源于互联网高质量视频数据和公司内部数据，支持任意数量的视觉条件引导。

在对比实验中，Tora在不同帧数设置下均展现出了优越的性能，尤其是在128帧测试下，轨迹准确度比其他方法高出3至5倍。此外，Tora在更长时间内保持了有效的轨迹控制，表现出逐渐的误差增加。

Tora模型的提出，为视频生成技术的发展提供了新的思路和方法，有望推动AIGC领域的进一步发展和应用落地。