国产 Sora 的秘密,藏在这个清华系大模型团队中

AIGC动态7个月前发布 geekpark
673 0 0
国产 Sora 的秘密,藏在这个清华系大模型团队中

 

文章摘要


【关 键 词】 AIGCSora技术DiffusionTransformerVidu

在视频AIGC(人工智能生成内容)领域,Sora技术因其在长视频生成方面的突破性进展而备受关注。Sora采用的DiffusionTransformer架构在生成内容的准确性和灵活性上实现了质的飞跃,但其非开源性质限制了其他企业的复现可能性。尽管如此,中国的AI企业并未停止追赶,其中生数科技联合清华大学推出了国内首个基于纯自研U-ViT架构的视频大模型“Vidu”,支持一键生成长达16秒、1080p分辨率的高清视频内容。

Vidu在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面表现出色,与Sora齐平。Vidu的特点是画面时间足够长,解决了传统算法记忆消失的问题,并且在生成时长、画面连续流畅度和细节逻辑连贯性方面取得了显著进步。生数科技的创始团队源于清华大学,其研究成果已被应用于DALL·E 2、Stable Diffusion等模型中。

生数科技选择的技术路线与Sora相似,都是Diffusion与Transformer的融合架构。U-ViT架构在小数据集和大规模图文数据集上进行了实验,证明了其在大规模训练任务中的可扩展性。生数科技在图像和3D领域的积累为视频生成提供了坚实的基础,通过视频数据压缩技术和自研的分布式训练框架,显著提升了训练效率。

在追求“国产Sora”的过程中,生数科技不仅在技术上找对了方向,还走出了具有中国特色的发展道路。这表明,尽管面临技术和资源的挑战,中国AI企业仍有机会在视频AIGC领域取得突破。

原文和模型


【原文链接】 阅读原文 [ 4035字 | 17分钟 ]
【原文作者】 极客公园
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...