北大发起 Open-Sora计划:旨在复现Sora模型「承认与OpenAI差距巨大只因缺资源」

AIGC动态9个月前发布 admin
797 0 0

模型信息


【模型公司】 百川智能
【模型名称】 Baichuan2-53B
【摘要评分】 ★★★★★

北大发起 Open-Sora计划:旨在复现Sora模型「承认与OpenAI差距巨大只因缺资源」
 

文章摘要


【关 键 词】 开源计划视频生成AIGC动态掩码GitHub

北京大学Yuangroup团队发起了名为Open-Sora的开源计划,目标是复制OpenAI的视频生成模型Sora。该计划由北大-兔展AIGC联合实验室共同发起,旨在利用开源社区的力量逐步实现这一目标。由于当前资源有限,团队仅构建了基础架构,无法进行完整训练,因此希望通过开源社区逐步增加模块并筹集资源进行训练。

Open-Sora框架主要由三个部分组成:Video VQ-VAE、Denoising Diffusion Transformer和Condition Encoder。其中,Video VQ-VAE用于将高分辨率视频压缩成低维度的表示;Denoising Diffusion Transformer用于从潜在表示中生成视频;Condition Encoder支持多种条件输入,使模型能够根据不同的文本描述或其他条件生成视频内容。

为实现可变长宽比、可变分辨率和可变时长,北大团队参考了FIT的实施方法,采用动态掩码策略,并在推理过程中使用位置插值来实现这些功能。

该项目旨在创建一个简单且可扩展的存储库,以便重现Sora。然而,由于北大团队的资源有限,研究人员衷心希望所有开源社区都能为这个项目做出贡献。目前,训练代码已经发布,更多详情请访问GitHub项目页面。

原文信息


【原文链接】 阅读原文
【阅读预估】 745 / 3分钟
【原文作者】 AI寒武纪
【作者简介】 Attention Is All You Need

© 版权声明

相关文章

暂无评论

暂无评论...