还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

AIGC动态1年前 (2024)发布 QbitAI

2,344 0 0

还得是开源！潞晨Open-Sora技术路线公开，一键生成16秒720p视频，质量更高训练成本更低

文章摘要

潞晨Open-Sora是一个免费开源的高清视频生成工具，自3月份发布以来，受到了广泛关注。它能够生成720p的高清视频，包括人物肖像、科幻大片、动画以及具有流畅变焦效果的视频。该工具在GitHub上的星数已达到17.5K，显示了其受欢迎程度。

潞晨Open-Sora的最新版本引入了视频压缩网络、更优的扩散模型算法和更多的可控性，通过使用1.1B的扩散生成模型，在保证输出质量的同时降低了计算资源的消耗。视频压缩网络能够在时间维度上实现4倍压缩，无需抽帧，可以使用原始FPS生成视频。此外，团队还提出了一个简单的视频压缩网络，能够在空间维度上实现8×8倍的压缩，再从时间维度上压缩4倍。

潞晨Open-Sora的训练过程分为三个阶段，包括冻结2D VAE权重训练3D VAE部分、移除identity loss继续训练3D VAE部分以及解冻2D VAE权重训练整个VAE模型。训练数据使用20%图像和80%视频，视频用17帧或34帧进行训练。训练和推理的代码已开源。

基于最新Stable Diffusion 3的开源成果，潞晨Open-Sora提供了一套完整的训练解决方案。Stable Diffusion 3通过采用rectified flow技术替代DDPM，显著提升了图片和视频生成的质量。潞晨Open-Sora团队带来的技术包括简单易用的整流训练、用于训练加速的Logit-norm时间步长采样以及基于分辨率和视频长度的时间步长采样。这些技术的整合能够加快模型的训练速度，减少推理阶段的等待时间，确保用户体验的流畅性。

此外，潞晨Open-Sora还支持在推理过程中输出多种视频宽高比，满足多样化场景下的视频素材需求。技术报告中还透露了更多模型训练的核心细节，包括数据清洗和调优的使用技巧。团队构建了更完善的模型评估体系，保障模型的稳健性和泛化能力。

潞晨Open-Sora提供了可自行一键部署的Gradio应用，并支持调节输出的运动分数、美学分数和镜头移动方式等参数。此外，还支持一键通过GPT-4o自动修改指令并支持中文输入。

潞晨Open-Sora的持续开源为视频生成领域的发展做出了贡献。用户可以零门槛免费获得模型权重和全套训练代码，尝试用于沉浸式游戏、创意广告、制作影视大片等多种场景。更多详情可以访问潞晨Open-Sora的GitHub主页。