4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

AIGC动态1年前 (2024)发布 AIera

2,781 0 0

文章摘要

智谱AI于7月26日发布了国内首个人人可用的AI视频生成产品「清影」，该产品能在30秒内将任意文图生成视频。发布仅6天后，「清影」生成的视频数量就已突破百万。智谱AI宣布将与「清影」同源的视频生成模型CogVideoX正式开源，希望推动行业快速迭代与创新发展。

CogVideoX系列包含多个不同尺寸大小的开源模型，其中CogVideoX-2B模型在FP-16精度下的推理仅需18GB显存，微调则只需要40GB显存，单张4090显卡即可进行推理，单张A6000显卡即可完成微调。CogVideoX生成的视频效果惊艳，能够生动地描绘各种场景，如木制玩具船在模拟海浪的蓝色地毯上航行、白色越野车在松树环绕的陡峭土路上快速行驶、战乱中人物表情细节的刻画、白雪皑皑的森林等。

CogVideoX采用了基于3D变分自编码器（3D VAE）的视频压缩方法，通过三维卷积同时压缩视频的空间和时间维度，实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在空间正则化器，并通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性，减少了通信开销。上下文并行技术的采用，可以适应大规模视频处理。

为了训练视频生成模型，团队筛选了高质量视频数据，并通过计算光流和美学分数，动态调整阈值，确保生成视频的质量。同时，团队提出了一种从图像字幕生成视频字幕的管道，并微调端到端的视频字幕模型以获得更密集的字幕。

在性能评估方面，团队使用了VBench中的多个指标，如人类动作、场景、动态程度等，并使用了两个额外的视频评估工具：Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score，这些工具专注于视频的动态特性。

智谱AI团队表示，目前的视频质量还有很广阔的提升空间，期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。未来，团队将在不断scale up数据规模和模型规模的同时，探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。