清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律

AIGC动态6个月前发布 QbitAI
555 0 0
清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律

 

文章摘要


【关 键 词】 AI视频生成Vidu模型技术创新清华大学多模态大模型

Vidu模型的发布:「Vidu」能够一键生成长达16秒、分辨率达1080p的高清视频内容,其画面效果非常接近Sora,表现出色在多镜头语言、时间和空间一致性、遵循物理规律等方面。

全面对标Sora:生数科技的CEO唐家渝曾表示,「Vidu」将在今年内达到Sora的效果。目前,「Vidu」在视频生成的多个关键方面已经逼近Sora的水平。

视频长度和质量:「Vidu」生成的视频长度突破了10秒大关,达到了16秒,且画面连续流畅,具有细节和逻辑连贯性。

镜头语言的注入:「Vidu」在视频制作中成功地注入了镜头语言,通过不同的镜头选择、角度、运动和组合,提升了视频的叙事感。

时间和空间的一致性:「Vidu」在保持视频画面的连贯和流畅性方面表现出色,克服了AI生成视频中常见的时空不一致问题。

模拟真实物理世界:「Vidu」能够模拟真实物理世界的运动,如物体的移动和相互作用,其效果与人类在真实物理世界中的体验非常接近。

丰富的想象力:「Vidu」能够生成现实世界中不存在的画面,为创作超现实主义内容提供了便利。

理解中国元素:「Vidu」能够生成具有中国特色元素的画面,如熊猫、龙、宫殿场景等。

技术路线和工程化基础:「Vidu」基于自研的U-ViT架构,该架构融合了Diffusion和Transformer的优势。团队在图文任务中积累的经验为视频模型的研发提供了基础。

团队背景:生数科技是一支由清华大学人工智能研究院背景的团队,专注于图像、3D、视频等多模态大模型领域。团队在生成式人工智能和贝叶斯机器学习领域有20余年的研究经验,并在国际顶会上发表了近30篇相关论文。

融资和认可:生数科技已获得蚂蚁集团、启明创投、BV百度风投、字节系锦秋基金等多家知名产业机构的认可,并完成了数亿元融资。

文章最后提到,「Vidu」目前正在加速迭代提升,其灵活的模型架构将能够兼容更广泛的多模态能力。

原文和模型


【原文链接】 阅读原文 [ 4214字 | 17分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...