详解Latte：去年底上线的全球首个开源文生视频DiT

AIGC动态1年前 (2024)发布 almosthuman2014

2,655 0 0

文章摘要

上海人工智能实验室的研究团队在视频生成领域取得了重要突破，他们成功开发了名为Latte的视频DiT模型。这是全球首个开源的文生视频DiT，受到了广泛的关注和使用。

Latte模型主要包含两个模块：预训练的VAE和视频DiT。预训练的VAE编码器将视频逐帧从像素空间压缩到隐空间，视频DiT对隐式表征提取token并进行时空建模，最后VAE解码器将特征映射回像素空间生成视频。为了得到最优的视频质量，研究团队着重探究了Latte设计中的两个重要内容，即视频DiT模型整体结构设计以及模型与训练细节的最优设计。

在模型结构设计方面，研究团队提出了四种不同的Latte变体，从时空注意力机制的角度设计了两种Transformer模块，并在每种模块中分别研究了两种变体。实验结果表明，变体4在FLOPS上有明显的差异，因此在FVD上也相对最高，其他三种变体的总体性能类似，变体1取得了最优异的性能。

在模型与训练细节的最优设计方面，研究团队探究了影响生成效果的多个因素，包括Token提取、条件注入模式、时空位置编码、模型初始化、图像视频联合训练以及模型尺寸等。实验结果表明，单帧token优于时空token，S-AdaLN的条件注入方式比all token更有效，不同的位置编码对视频质量影响很小，使用ImageNet初始化的模型具有较快的收敛速度，但随机初始化的模型取得了较好的结果，图像视频联合训练对最终结果有显著提升，扩大视频DiT规模可以显著提高生成样本质量。

在四个学术数据集（FaceForensics，TaichiHD，SkyTimelapse以及UCF101）上的训练结果显示，Latte模型均取得了最好的性能。此外，为了进一步证明Latte的通用性能，研究团队将Latte扩展到了文生视频任务，取得了初步的成果。

总的来说，Latte作为全世界首个开源文生视频DiT，已经取得了很有前景的结果。虽然在生成清晰度、流畅度以及时长上与Sora相比还存在一些差距，但研究团队正在积极寻求各种合作，希望通过开源的力量，打造出性能卓越的自主研发大规模通用视频生成模型。