Open-Sora 2.0全面开源,20万复刻百万级大片!11B媲美闭源巨头,224张GPU创奇迹

AIGC动态5小时前发布 AIera
98 0 0
Open-Sora 2.0全面开源,20万复刻百万级大片!11B媲美闭源巨头,224张GPU创奇迹

 

文章摘要


【关 键 词】 视频生成开源模型低成本高性能技术创新

潞晨科技正式发布了Open-Sora 2.0,这是一款全新的开源视频生成模型,标志着视频生成领域的开源革命。该模型仅用20万美元和224张GPU成功训练出商业级11B参数的大模型,性能直追HunyuanVideo和30B参数的Step-Video。Open-Sora 2.0在多项关键指标上媲美动辄数百万美元训练成本的闭源模型,显著提升了视频生成的可及性与可拓展性。此次发布不仅开源了模型权重、推理代码,还提供了分布式训练的全流程,使得高质量视频生成真正触手可及。

在视觉表现方面,Open-Sora 2.0提供了720p高分辨率和24 FPS流畅视频,支持丰富的场景生成,从乡村景色到自然风光,细节与相机运镜表现均出色。在VBench和人工偏好评测中,Open-Sora 2.0在视觉表现、文本一致性和动作表现三个维度上,至少有两个指标超越了开源SOTA HunyuanVideo和商业模型Runway Gen-3 Alpha。从Open-Sora 1.2升级到2.0版本后,与行业领先的OpenAI Sora闭源模型之间的性能差距从4.52%缩减至仅0.69%,几乎实现了性能的全面追平。

Open-Sora 2.0的成功得益于其高效训练方法和优化方案。通过严格的数据筛选、多阶段多层次的筛选机制,以及优先训练图生视频任务,Open-Sora 2.0显著降低了训练成本,将10B以上开源视频模型的单次训练成本降低了5-10倍。此外,Open-Sora 2.0采用了高效的并行训练方案,结合ColossalAI和系统级优化,大幅提升了计算资源利用率,实现了更高效的视频生成训练。

在模型架构上,Open-Sora 2.0延续了Open-Sora 1.2的设计思路,采用了3D自编码器和Flow Matching训练框架,并通过多桶训练机制实现对不同视频长度和分辨率的同时训练。引入3D全注意力机制和最新的MMDiT架构,进一步提升了视频生成质量,并精准捕捉文本信息与视频内容的关系。此外,借助开源图生视频模型FLUX进行初始化,大幅降低了训练成本,实现了更高效的视频生成优化。

未来,Open-Sora 2.0将继续探索高压缩比视频自编码器的应用,以大幅降低推理成本。通过训练高压缩比(4×32×32)的视频自编码器,Open-Sora 2.0将推理时间缩短至单卡3分钟以内,推理速度提升了10倍。这一技术突破为未来降低视频生成成本提供了关键方向,初步实验结果已展现出显著的推理加速效果。

Open-Sora 2.0的开源不仅为开发者提供了强大的工具,也为全球开源视频生成技术树立了全新标杆。通过更少的资源和更开放的生态,Open-Sora 2.0正在推动AI视频革命,创造属于下一代的数字影像世界。

原文和模型


【原文链接】 阅读原文 [ 2401字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...