全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重

AIGC动态9个月前发布 QbitAI
929 0 0

模型信息


【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
 

文章摘要


【关 键 词】 视频生成开源模型模型架构训练流程数据处理

文章介绍了全球首个开源的类Sora架构视频生成模型Open-Sora 1.0的发布。该模型开放了整个训练流程,包括数据处理、训练细节和模型权重。Open-Sora能生成繁华都市夜景海岸边的景色以及浩瀚星空等效果。由于Sora的技术细节较少,Colossal-AI团队推出了成本降低46%的Sora训练推理复现流程,并在GitHub上免费开源了技术方案和详细教程。复现Sora的关键在于模型架构设计训练复现方案数据预处理高效训练优化策略

模型架构设计方面,Open-Sora采用了Diffusion Transformer (DiT)架构,引入时间注意力层,构建了STDiT模型。训练流程包括VAE的编码器压缩视频数据,与文本嵌入一起训练STDiT扩散模型。训练复现方案分为大规模图像预训练大规模视频预训练高质量视频数据微调三个阶段,逐步扩展数据以提高视频生成质量。数据预处理方面,提供了视频数据预处理脚本,简化了Sora复现的门槛和复杂度。训练加速方案通过算子优化混合并行等策略实现了训练加速,STDiT模型在训练时表现出高效性。

Colossal-AI团队还展示了更多Open-Sora的生成效果,并表示将持续更新优化解决方案,使用更多视频训练数据生成更高质量、更长时长的视频内容。未来计划在电影游戏广告等领域推广应用。感兴趣的开发者可以访问GitHub项目了解更多信息。整个复现流程控制在1万美元左右,为开发者提供了一个实现Sora效果的开源解决方案。

原文信息


【原文链接】 阅读原文
【阅读预估】 1958 / 8分钟
【原文作者】 量子位
【作者简介】 追踪人工智能新趋势,关注科技行业新突破

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...