北大发起 Open-Sora计划：旨在复现Sora模型「承认与OpenAI差距巨大只因缺资源」

AIGC动态1年前 (2024)发布 admin

1,934 0 0

模型信息

【模型公司】 百川智能
【模型名称】 Baichuan2-53B
【摘要评分】 ★★★★★

文章摘要

北京大学Yuangroup团队发起了名为Open-Sora的开源计划，目标是复制OpenAI的视频生成模型Sora。该计划由北大-兔展AIGC联合实验室共同发起，旨在利用开源社区的力量逐步实现这一目标。由于当前资源有限，团队仅构建了基础架构，无法进行完整训练，因此希望通过开源社区逐步增加模块并筹集资源进行训练。

Open-Sora框架主要由三个部分组成：Video VQ-VAE、Denoising Diffusion Transformer和Condition Encoder。其中，Video VQ-VAE用于将高分辨率视频压缩成低维度的表示；Denoising Diffusion Transformer用于从潜在表示中生成视频；Condition Encoder支持多种条件输入，使模型能够根据不同的文本描述或其他条件生成视频内容。

为实现可变长宽比、可变分辨率和可变时长，北大团队参考了FIT的实施方法，采用动态掩码策略，并在推理过程中使用位置插值来实现这些功能。

该项目旨在创建一个简单且可扩展的存储库，以便重现Sora。然而，由于北大团队的资源有限，研究人员衷心希望所有开源社区都能为这个项目做出贡献。目前，训练代码已经发布，更多详情请访问GitHub项目页面。