4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

AIGC动态4个月前发布 AIera
916 0 0
4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

 

文章摘要


【关 键 词】 AI视频生成开源模型视频压缩动态评估创新发展

智谱AI于7月26日发布了国内首个人人可用的AI视频生成产品「清影」,该产品能在30秒内将任意文图生成视频。发布仅6天后,「清影」生成的视频数量就已突破百万。智谱AI宣布将与「清影」同源的视频生成模型CogVideoX正式开源,希望推动行业快速迭代与创新发展

CogVideoX系列包含多个不同尺寸大小的开源模型,其中CogVideoX-2B模型在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存,单张4090显卡即可进行推理,单张A6000显卡即可完成微调。CogVideoX生成的视频效果惊艳,能够生动地描绘各种场景,如木制玩具船在模拟海浪的蓝色地毯上航行、白色越野车在松树环绕的陡峭土路上快速行驶、战乱中人物表情细节的刻画、白雪皑皑的森林等。

CogVideoX采用了基于3D变分自编码器(3D VAE)的视频压缩方法,通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在空间正则化器,并通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性,减少了通信开销。上下文并行技术的采用,可以适应大规模视频处理。

为了训练视频生成模型,团队筛选了高质量视频数据,并通过计算光流和美学分数,动态调整阈值,确保生成视频的质量。同时,团队提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。

在性能评估方面,团队使用了VBench中的多个指标,如人类动作、场景、动态程度等,并使用了两个额外的视频评估工具:Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score,这些工具专注于视频的动态特性。

智谱AI团队表示,目前的视频质量还有很广阔的提升空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。未来,团队将在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2108字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...