一键生成 16 秒 1080P 视频,国产 Sora 的秘密,藏在这个清华系大模型团队中

AIGC动态7个月前发布 Founder Park
749 0 0
一键生成 16 秒 1080P 视频,国产 Sora 的秘密,藏在这个清华系大模型团队中

 

文章摘要


【关 键 词】 Sora技术AI企业视频生成技术创新国产AI

在2024年,Sora技术因其在长视频生成领域的革命性突破而受到全球关注。Sora技术采用Diffusion加Transformer架构,克服了传统Stable Diffusion算法的扩展性问题,并在内容生成的准确性和灵活性上取得了显著进步。然而,Sora并非开源算法,这限制了其他企业对其技术的复现和应用。

在这种背景下,中国的AI企业生数科技联合清华大学发布了国内首个基于纯自研U-ViT架构的视频大模型“Vidu”。Vidu能够一键生成长达16秒、1080p分辨率的高清视频内容,其在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面的表现几乎与Sora相当。Vidu的发布被视为国产Sora的重要进展,尤其是在画面时间长度和细节连贯性方面。

生数科技的Vidu模型采用了与Sora相似的融合架构,即将Diffusion模型与Transformer结合。这种架构利用了Transformer的可扩展性和Diffusion模型在视觉任务中的优势,展现出卓越的涌现能力。生数科技的团队核心成员来自清华大学人工智能研究院,是国内最早开展深度生成式研究的团队之一。他们的研究成果已被OpenAI、苹果、Stability AI等应用于DALL·E 2、Stable Diffusion等模型中。

生数科技之所以能在短短时间内取得显著成果,主要得益于他们早早走对了技术路线,并在图像和3D领域积累了丰富的工程化经验。公司的发展策略是先从2D图像开始,逐步拓展到3D和视频,这种循序渐进的路径有助于团队在视频生成技术上取得快速突破。此外,生数科技在视频数据压缩技术和分布式训练框架方面的创新,也为其在视频生成领域的快速发展提供了支持。

总的来说,生数科技的Vidu模型在技术上与Sora站在了同一起跑线,甚至更早。通过在图像、3D和视频领域的逐步深入,生数科技不仅在技术上取得了突破,也为国产AI企业在长视频生成领域的发展提供了新的可能性。

原文和模型


【原文链接】 阅读原文 [ 4097字 | 17分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...