中国的开源版 sora:4090 内单卡运行,A6000 可微调
文章摘要
【关 键 词】 视频生成、AI技术、开源模型、视频压缩、技术创新
智谱版Sora「清影」是一款商用级视频生成模型,于7月26日发布,能在30秒内将任意文图生成视频。该产品已在智谱AI助手「智谱清言」上线,6天内生成视频数突破百万。智谱AI宣布将与「清影」同源的视频生成模型CogVideoX开源,提供给开发者和企业自由开发视频生成模型,推动行业创新。
CogVideoX开源模型包含多个尺寸大小的模型,目前开源的CogVideoX-2B在FP-16精度下的推理仅需18GB显存,微调需要40GB显存。该模型支持6秒长视频生成,帧率为8帧/秒,分辨率为720*480。开源模型为视频质量提升预留了空间,开发者可在多方面进行优化和探索。
智谱采用基于3D变分自编码器(3D VAE)的视频压缩方法,通过三维卷积压缩视频空间和时间维度,实现高压缩率和良好重建质量。模型结构包括编码器、解码器和潜在空间正则化器,通过下采样和上采样实现压缩。时间因果卷积确保信息因果性,减少通信开销。智谱采用上下文并行技术适应大规模视频处理,分两阶段训练模型,先在低帧率训练,再在高帧率微调。训练损失函数结合L2损失、感知损失和GAN损失。
智谱使用VAE编码器将视频压缩至潜在空间,分割成块并展开成长序列嵌入z_vision。同时使用T5编码文本输入为文本嵌入z_text,拼接后送入专家Transformer处理。最后通过反向拼接嵌入恢复原始潜在空间形状,使用VAE解码重建视频。
视频生成模型训练需筛选高质量视频数据,智谱开发负面标签排除低质量视频,通过video-llama训练的过滤器标注筛选20,000个视频数据点。计算光流和美学分数,动态调整阈值,确保生成视频质量。视频数据缺少文本描述,智谱提出从图像字幕生成视频字幕的管道,微调端到端视频字幕模型获得更密集字幕。使用Panda70M、CogView3和GPT-4模型生成短视频字幕,微调CogVLM2-Caption模型加速视频字幕生成。
智谱使用VBench指标和额外视频评估工具评估文本到视频生成质量,如人类动作、场景、动态程度等。CogVideoX已验证scaling law在视频生成方面的有效性,智谱将继续扩大数据和模型规模,探索新型模型架构、高效压缩视频信息、充分融合文本和视频内容。
智谱版Sora「清影」的开源,为视频生成技术的发展和应用提供了新的可能性。开源模型的推出,降低了视频生成技术的门槛,使得更多开发者和企业能够参与到视频生成技术的研究和应用中来。通过持续的技术创新和优化,视频生成技术有望在更多领域发挥重要作用,推动相关行业的快速发展。
原文和模型
【原文链接】 阅读原文 [ 2925字 | 12分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★