还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频,质量更高训练成本更低

AIGC动态6个月前发布 QbitAI
932 0 0
还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频,质量更高训练成本更低

 

文章摘要


【关 键 词】 视频生成开源工具高清视频压缩技术模型训练

潞晨Open-Sora是一个免费开源的高清视频生成工具,自3月份发布以来,受到了广泛关注。它能够生成720p的高清视频,包括人物肖像、科幻大片、动画以及具有流畅变焦效果的视频。该工具在GitHub上的星数已达到17.5K,显示了其受欢迎程度。

潞晨Open-Sora的最新版本引入了视频压缩网络、更优的扩散模型算法和更多的可控性,通过使用1.1B的扩散生成模型,在保证输出质量的同时降低了计算资源的消耗。视频压缩网络能够在时间维度上实现4倍压缩,无需抽帧,可以使用原始FPS生成视频。此外,团队还提出了一个简单的视频压缩网络,能够在空间维度上实现8×8倍的压缩,再从时间维度上压缩4倍。

潞晨Open-Sora的训练过程分为三个阶段,包括冻结2D VAE权重训练3D VAE部分、移除identity loss继续训练3D VAE部分以及解冻2D VAE权重训练整个VAE模型。训练数据使用20%图像和80%视频,视频用17帧或34帧进行训练。训练和推理的代码已开源。

基于最新Stable Diffusion 3的开源成果,潞晨Open-Sora提供了一套完整的训练解决方案。Stable Diffusion 3通过采用rectified flow技术替代DDPM,显著提升了图片和视频生成的质量。潞晨Open-Sora团队带来的技术包括简单易用的整流训练、用于训练加速的Logit-norm时间步长采样以及基于分辨率和视频长度的时间步长采样。这些技术的整合能够加快模型的训练速度,减少推理阶段的等待时间,确保用户体验的流畅性。

此外,潞晨Open-Sora还支持在推理过程中输出多种视频宽高比,满足多样化场景下的视频素材需求。技术报告中还透露了更多模型训练的核心细节,包括数据清洗和调优的使用技巧。团队构建了更完善的模型评估体系,保障模型的稳健性和泛化能力。

潞晨Open-Sora提供了可自行一键部署的Gradio应用,并支持调节输出的运动分数、美学分数和镜头移动方式等参数。此外,还支持一键通过GPT-4o自动修改指令并支持中文输入。

潞晨Open-Sora的持续开源为视频生成领域的发展做出了贡献。用户可以零门槛免费获得模型权重和全套训练代码,尝试用于沉浸式游戏、创意广告、制作影视大片等多种场景。更多详情可以访问潞晨Open-Sora的GitHub主页。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1550字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...