清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

AIGC动态2年前 (2024)发布 QbitAI

3,483 0 0

清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

文章摘要

【关键词】 AI视频生成、Vidu模型、技术创新、清华大学、多模态大模型

Vidu模型的发布：「Vidu」能够一键生成长达16秒、分辨率达1080p的高清视频内容，其画面效果非常接近Sora，表现出色在多镜头语言、时间和空间一致性、遵循物理规律等方面。

全面对标Sora：生数科技的CEO唐家渝曾表示，「Vidu」将在今年内达到Sora的效果。目前，「Vidu」在视频生成的多个关键方面已经逼近Sora的水平。

视频长度和质量：「Vidu」生成的视频长度突破了10秒大关，达到了16秒，且画面连续流畅，具有细节和逻辑连贯性。

镜头语言的注入：「Vidu」在视频制作中成功地注入了镜头语言，通过不同的镜头选择、角度、运动和组合，提升了视频的叙事感。

时间和空间的一致性：「Vidu」在保持视频画面的连贯和流畅性方面表现出色，克服了AI生成视频中常见的时空不一致问题。

模拟真实物理世界：「Vidu」能够模拟真实物理世界的运动，如物体的移动和相互作用，其效果与人类在真实物理世界中的体验非常接近。

丰富的想象力：「Vidu」能够生成现实世界中不存在的画面，为创作超现实主义内容提供了便利。

理解中国元素：「Vidu」能够生成具有中国特色元素的画面，如熊猫、龙、宫殿场景等。

技术路线和工程化基础：「Vidu」基于自研的U-ViT架构，该架构融合了Diffusion和Transformer的优势。团队在图文任务中积累的经验为视频模型的研发提供了基础。

团队背景：生数科技是一支由清华大学人工智能研究院背景的团队，专注于图像、3D、视频等多模态大模型领域。团队在生成式人工智能和贝叶斯机器学习领域有20余年的研究经验，并在国际顶会上发表了近30篇相关论文。

融资和认可：生数科技已获得蚂蚁集团、启明创投、BV百度风投、字节系锦秋基金等多家知名产业机构的认可，并完成了数亿元融资。

文章最后提到，「Vidu」目前正在加速迭代提升，其灵活的模型架构将能够兼容更广泛的多模态能力。

原文和模型

【原文链接】 阅读原文 [ 4214字 | 17分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # AI大模型 # 图像生成 # 视频生成 # AI视频生成 # Vidu模型 # 多模态大模型 # 技术创新 # 清华大学

文章版权归作者所有，未经允许请勿转载。

中国大模型要用Infra“降本增效”｜钛媒体AGI

钛媒体AGI

3,672

晶体管，还能微缩吗？

admin

2,362

基础模型、长文本、数据库、应用落地：读懂大模型行业的关键问题

Founder Park

3,629

瞄准家庭具身，云鲸开始提速

极客公园

2,930

对话Zilliz创始人星爵：我们没有对手，接下来的大事是 Agentic RAG

硅星人Pro

3,287

AI二创「黑神话」点燃全网！爆改二郎神，送自家狗子一键「成精」

新智元

3,631

暂无评论

暂无评论...

清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

文章摘要

原文和模型

当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

Sora的真实使用体验

相关文章

暂无评论

热门网址

热门文章

清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

文章摘要

原文和模型

当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

Sora的真实使用体验

相关文章

暂无评论

AstronClaw-安全养虾

LibTV-AI视频创作

讯飞AI大学堂

热门网址

热门文章