北大发起复现Sora，框架已搭！袁粒田永鸿领衔，AnimateDiff大神响应

AIGC动态2年前 (2024)发布 QbitAI

2,903 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 Open Sora、北大团队、AI视频生成、Sora复现、深度学习

北大信息工程学院的袁粒教授和田永鸿教授领衔的团队联合兔展发起了一项名为Open Sora的Sora复现计划。该计划旨在集结开源社区的力量，以有限的资源尽可能完成Sora的视频生成技术的复现。目前，该团队已有13人，包括袁粒和田永鸿等知名学者。

Open Sora计划的技术细节已经公布，包括Video VQ-VAE、去噪扩散型Transformer和条件编码器三部分。团队采用了动态掩码策略来处理可变长宽比的视频，并计划在推理过程中使用位置插值实现可变分辨率采样。目前，10秒和18秒视频重建的三个初步功能已经实现，相关的训练代码也已上线。

团队成员主要为硕士生，包括袁粒课题组的林彬等。兔展智能的创始人董少灵和CTO周星也参与其中。目前，团队正在使用8个A100-80G GPU进行训练，预计需要一周时间才能生成类似ucf数据集的效果。

未来计划包括采样脚本的开发、添加位置插值、在更高分辨率上微调Video-VQVAE、合并SiT、纳入更多条件，以及使用更多数据和GPU进行训练。

在Sora中文版的竞争中，字节跳动被认为是最有可能率先发布的公司。尽管字节跳动已经辟谣了“Boximator”视频生成模型，但有关其AI绘画工具“Dreamina”即将上线类似Sora的视频生成功能的传闻仍在继续。

Open Sora项目的主页和GitHub页面已经开放，供感兴趣的开发者和研究者关注和参与。同时，量子位也在评选2024年最值得关注的AIGC企业和产品，以及筹备中国AIGC产业峰会。