首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
 

文章摘要


【关 键 词】 AI视频生成SnapChatTransformer高分辨率

SnapChat背后的公司Snap联合特伦托大学等机构发布了一款名为Snap Video的文本生成视频模型。

该模型采用了可扩展的时空Transformer架构,旨在提高视频生成的质量和多样性。

Snap Video的研究者们通过重写EDM(Elucidating the Design Space of Diffusion-Based Generative Models)框架,专注于高分辨率视频生成,并通过将图像视为高帧率视频来进行联合视频-图像训练,解决了图像和视频模态之间的差异问题。

此外,Snap Video模型在训练和推理速度上均实现了显著提升,同时在生成质量上也达到了更高的水平。

在用户研究中,Snap Video在文本对齐、运动质量和真实感方面均优于其他开源和闭源方法。

研究者们还详细介绍了Snap Video的架构设计、训练和推理过程,以及在UCF101和MSR-VTT数据集上的评估结果。

原文信息


【原文链接】 阅读原文
【阅读预估】 3339 / 14分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台

© 版权声明

相关文章

暂无评论

暂无评论...