开源Open-Sora大更新:可生成16秒,720P高清视频

AIGC动态8个月前发布 AIGCOPEN
1,152 0 0
开源Open-Sora大更新:可生成16秒,720P高清视频

 

文章摘要


【关 键 词】 视频生成多模态开源模型更新多分辨率

本文介绍了国内著名大模型开源公司潞晨科技的开源文生视频模型Open-Sora的大更新。该模型现在能够生成16秒、分辨率高达720P的视频,并具备处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的多模态功能。潞晨科技已经将Open-Sora的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程以及所有的训练细节全部开源。目前,Open-Sora在github上拥有超过16,000颗星,是国内乃至全球领先的类Sora开源模型之一。新版本的Open-Sora进行了架构升级,采用了一种多阶段训练方法,引入了QK归一化技术以增强训练的稳定性,并提出了ST-DiT-2架构来支持多分辨率、不同长宽比和帧率的训练需求。研究人员还提出了一种统一的图生视频/视频生视频框架,支持各种生成任务。此外,为了支持多时间/分辨率/长宽比/帧率训练,引入了分桶的策略,并在数据收集和预处理流程中建立了一个自动化的数据处理流程,遵循奇异值分解(SVD)原则,包括场景分割、字幕处理、多样化评分与筛选等。整个开源社区也将数据处理的相关脚本分享至开源社区,以帮助其他开发者高效地处理和优化自己的数据集。

原文和模型


【原文链接】 阅读原文 [ 1743字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...