首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
文章摘要
【关 键 词】 AI、视频生成、SnapChat、Transformer、高分辨率
SnapChat背后的公司Snap联合特伦托大学等机构发布了一款名为Snap Video的文本生成视频模型。
该模型采用了可扩展的时空Transformer架构,旨在提高视频生成的质量和多样性。
Snap Video的研究者们通过重写EDM(Elucidating the Design Space of Diffusion-Based Generative Models)框架,专注于高分辨率视频生成,并通过将图像视为高帧率视频来进行联合视频-图像训练,解决了图像和视频模态之间的差异问题。
此外,Snap Video模型在训练和推理速度上均实现了显著提升,同时在生成质量上也达到了更高的水平。
在用户研究中,Snap Video在文本对齐、运动质量和真实感方面均优于其他开源和闭源方法。
研究者们还详细介绍了Snap Video的架构设计、训练和推理过程,以及在UCF101和MSR-VTT数据集上的评估结果。
原文信息
【原文链接】 阅读原文
【阅读预估】 3339 / 14分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...