模型信息
【模型公司】 百川智能
【模型名称】 Baichuan2-53B
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 开源计划、视频生成、AIGC、动态掩码、GitHub
北京大学Yuangroup团队发起了名为Open-Sora的开源计划,目标是复制OpenAI的视频生成模型Sora。该计划由北大-兔展AIGC联合实验室共同发起,旨在利用开源社区的力量逐步实现这一目标。由于当前资源有限,团队仅构建了基础架构,无法进行完整训练,因此希望通过开源社区逐步增加模块并筹集资源进行训练。
Open-Sora框架主要由三个部分组成:Video VQ-VAE、Denoising Diffusion Transformer和Condition Encoder。其中,Video VQ-VAE用于将高分辨率视频压缩成低维度的表示;Denoising Diffusion Transformer用于从潜在表示中生成视频;Condition Encoder支持多种条件输入,使模型能够根据不同的文本描述或其他条件生成视频内容。
为实现可变长宽比、可变分辨率和可变时长,北大团队参考了FIT的实施方法,采用动态掩码策略,并在推理过程中使用位置插值来实现这些功能。
该项目旨在创建一个简单且可扩展的存储库,以便重现Sora。然而,由于北大团队的资源有限,研究人员衷心希望所有开源社区都能为这个项目做出贡献。目前,训练代码已经发布,更多详情请访问GitHub项目页面。
原文信息
【原文链接】 阅读原文
【阅读预估】 745 / 3分钟
【原文作者】 AI寒武纪
【作者简介】 Attention Is All You Need
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...