国产 Sora 的秘密，藏在这个清华系大模型团队中

AIGC动态2年前 (2024)发布 geekpark

2,210 0 0

文章摘要

【关键词】 AIGC、Sora技术、Diffusion、Transformer、Vidu

在视频AIGC（人工智能生成内容）领域，Sora技术因其在长视频生成方面的突破性进展而备受关注。Sora采用的Diffusion加Transformer架构在生成内容的准确性和灵活性上实现了质的飞跃，但其非开源性质限制了其他企业的复现可能性。尽管如此，中国的AI企业并未停止追赶，其中生数科技联合清华大学推出了国内首个基于纯自研U-ViT架构的视频大模型“Vidu”，支持一键生成长达16秒、1080p分辨率的高清视频内容。

Vidu在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面表现出色，与Sora齐平。Vidu的特点是画面时间足够长，解决了传统算法记忆消失的问题，并且在生成时长、画面连续流畅度和细节逻辑连贯性方面取得了显著进步。生数科技的创始团队源于清华大学，其研究成果已被应用于DALL·E 2、Stable Diffusion等模型中。

生数科技选择的技术路线与Sora相似，都是Diffusion与Transformer的融合架构。U-ViT架构在小数据集和大规模图文数据集上进行了实验，证明了其在大规模训练任务中的可扩展性。生数科技在图像和3D领域的积累为视频生成提供了坚实的基础，通过视频数据压缩技术和自研的分布式训练框架，显著提升了训练效率。

在追求“国产Sora”的过程中，生数科技不仅在技术上找对了方向，还走出了具有中国特色的发展道路。这表明，尽管面临技术和资源的挑战，中国AI企业仍有机会在视频AIGC领域取得突破。