详解Latte:去年底上线的全球首个开源文生视频DiT

详解Latte:去年底上线的全球首个开源文生视频DiT

 

文章摘要


【关 键 词】 视频生成Latte模型机器学习人工智能开源技术

上海人工智能实验室的研究团队在视频生成领域取得了重要突破,他们成功开发了名为Latte的视频DiT模型。这是全球首个开源的文生视频DiT,受到了广泛的关注和使用。

Latte模型主要包含两个模块:预训练的VAE和视频DiT。预训练的VAE编码器将视频逐帧从像素空间压缩到隐空间,视频DiT对隐式表征提取token并进行时空建模,最后VAE解码器将特征映射回像素空间生成视频。为了得到最优的视频质量,研究团队着重探究了Latte设计中的两个重要内容,即视频DiT模型整体结构设计以及模型与训练细节的最优设计。

在模型结构设计方面,研究团队提出了四种不同的Latte变体,从时空注意力机制的角度设计了两种Transformer模块,并在每种模块中分别研究了两种变体。实验结果表明,变体4在FLOPS上有明显的差异,因此在FVD上也相对最高,其他三种变体的总体性能类似,变体1取得了最优异的性能。

在模型与训练细节的最优设计方面,研究团队探究了影响生成效果的多个因素,包括Token提取、条件注入模式、时空位置编码、模型初始化、图像视频联合训练以及模型尺寸等。实验结果表明,单帧token优于时空tokenS-AdaLN的条件注入方式比all token更有效,不同的位置编码对视频质量影响很小,使用ImageNet初始化的模型具有较快的收敛速度,但随机初始化的模型取得了较好的结果,图像视频联合训练对最终结果有显著提升,扩大视频DiT规模可以显著提高生成样本质量。

在四个学术数据集(FaceForensicsTaichiHDSkyTimelapse以及UCF101)上的训练结果显示,Latte模型均取得了最好的性能。此外,为了进一步证明Latte的通用性能,研究团队将Latte扩展到了文生视频任务,取得了初步的成果。

总的来说,Latte作为全世界首个开源文生视频DiT,已经取得了很有前景的结果。虽然在生成清晰度、流畅度以及时长上与Sora相比还存在一些差距,但研究团队正在积极寻求各种合作,希望通过开源的力量,打造出性能卓越的自主研发大规模通用视频生成模型。

原文和模型


【原文链接】 阅读原文 [ 1948字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...