文章摘要
【关 键 词】 AI视频生成、Vidu模型、技术创新、清华大学、多模态大模型
Vidu模型的发布:「Vidu」能够一键生成长达16秒、分辨率达1080p的高清视频内容,其画面效果非常接近Sora,表现出色在多镜头语言、时间和空间一致性、遵循物理规律等方面。
全面对标Sora:生数科技的CEO唐家渝曾表示,「Vidu」将在今年内达到Sora的效果。目前,「Vidu」在视频生成的多个关键方面已经逼近Sora的水平。
视频长度和质量:「Vidu」生成的视频长度突破了10秒大关,达到了16秒,且画面连续流畅,具有细节和逻辑连贯性。
镜头语言的注入:「Vidu」在视频制作中成功地注入了镜头语言,通过不同的镜头选择、角度、运动和组合,提升了视频的叙事感。
时间和空间的一致性:「Vidu」在保持视频画面的连贯和流畅性方面表现出色,克服了AI生成视频中常见的时空不一致问题。
模拟真实物理世界:「Vidu」能够模拟真实物理世界的运动,如物体的移动和相互作用,其效果与人类在真实物理世界中的体验非常接近。
丰富的想象力:「Vidu」能够生成现实世界中不存在的画面,为创作超现实主义内容提供了便利。
理解中国元素:「Vidu」能够生成具有中国特色元素的画面,如熊猫、龙、宫殿场景等。
技术路线和工程化基础:「Vidu」基于自研的U-ViT架构,该架构融合了Diffusion和Transformer的优势。团队在图文任务中积累的经验为视频模型的研发提供了基础。
团队背景:生数科技是一支由清华大学人工智能研究院背景的团队,专注于图像、3D、视频等多模态大模型领域。团队在生成式人工智能和贝叶斯机器学习领域有20余年的研究经验,并在国际顶会上发表了近30篇相关论文。
融资和认可:生数科技已获得蚂蚁集团、启明创投、BV百度风投、字节系锦秋基金等多家知名产业机构的认可,并完成了数亿元融资。
文章最后提到,「Vidu」目前正在加速迭代提升,其灵活的模型架构将能够兼容更广泛的多模态能力。
原文和模型
【原文链接】 阅读原文 [ 4214字 | 17分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆