全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

AIGC动态1年前 (2024)发布 QbitAI

1,895 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

文章摘要

文章介绍了全球首个开源的类Sora架构视频生成模型Open-Sora 1.0的发布。该模型开放了整个训练流程，包括数据处理、训练细节和模型权重。Open-Sora能生成繁华都市夜景、海岸边的景色以及浩瀚星空等效果。由于Sora的技术细节较少，Colossal-AI团队推出了成本降低46%的Sora训练推理复现流程，并在GitHub上免费开源了技术方案和详细教程。复现Sora的关键在于模型架构设计、训练复现方案、数据预处理和高效训练优化策略。

在模型架构设计方面，Open-Sora采用了Diffusion Transformer (DiT)架构，引入时间注意力层，构建了STDiT模型。训练流程包括VAE的编码器压缩视频数据，与文本嵌入一起训练STDiT扩散模型。训练复现方案分为大规模图像预训练、大规模视频预训练和高质量视频数据微调三个阶段，逐步扩展数据以提高视频生成质量。数据预处理方面，提供了视频数据预处理脚本，简化了Sora复现的门槛和复杂度。训练加速方案通过算子优化和混合并行等策略实现了训练加速，STDiT模型在训练时表现出高效性。

Colossal-AI团队还展示了更多Open-Sora的生成效果，并表示将持续更新优化解决方案，使用更多视频训练数据生成更高质量、更长时长的视频内容。未来计划在电影、游戏、广告等领域推广应用。感兴趣的开发者可以访问GitHub项目了解更多信息。整个复现流程控制在1万美元左右，为开发者提供了一个实现Sora效果的开源解决方案。