清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

AIGC动态1年前 (2024)发布 QbitAI

1,677 0 0

清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

文章摘要

【关键词】 AI视频生成、Vidu模型、技术创新、清华大学、多模态大模型

Vidu模型的发布：「Vidu」能够一键生成长达16秒、分辨率达1080p的高清视频内容，其画面效果非常接近Sora，表现出色在多镜头语言、时间和空间一致性、遵循物理规律等方面。

全面对标Sora：生数科技的CEO唐家渝曾表示，「Vidu」将在今年内达到Sora的效果。目前，「Vidu」在视频生成的多个关键方面已经逼近Sora的水平。

视频长度和质量：「Vidu」生成的视频长度突破了10秒大关，达到了16秒，且画面连续流畅，具有细节和逻辑连贯性。

镜头语言的注入：「Vidu」在视频制作中成功地注入了镜头语言，通过不同的镜头选择、角度、运动和组合，提升了视频的叙事感。

时间和空间的一致性：「Vidu」在保持视频画面的连贯和流畅性方面表现出色，克服了AI生成视频中常见的时空不一致问题。

模拟真实物理世界：「Vidu」能够模拟真实物理世界的运动，如物体的移动和相互作用，其效果与人类在真实物理世界中的体验非常接近。

丰富的想象力：「Vidu」能够生成现实世界中不存在的画面，为创作超现实主义内容提供了便利。

理解中国元素：「Vidu」能够生成具有中国特色元素的画面，如熊猫、龙、宫殿场景等。

技术路线和工程化基础：「Vidu」基于自研的U-ViT架构，该架构融合了Diffusion和Transformer的优势。团队在图文任务中积累的经验为视频模型的研发提供了基础。

团队背景：生数科技是一支由清华大学人工智能研究院背景的团队，专注于图像、3D、视频等多模态大模型领域。团队在生成式人工智能和贝叶斯机器学习领域有20余年的研究经验，并在国际顶会上发表了近30篇相关论文。

融资和认可：生数科技已获得蚂蚁集团、启明创投、BV百度风投、字节系锦秋基金等多家知名产业机构的认可，并完成了数亿元融资。

文章最后提到，「Vidu」目前正在加速迭代提升，其灵活的模型架构将能够兼容更广泛的多模态能力。

原文和模型

【原文链接】 阅读原文 [ 4214字 | 17分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 图像生成 # 大模型 # 视频生成 # AI视频生成 # Vidu模型 # 多模态大模型 # 技术创新 # 清华大学

文章版权归作者所有，未经允许请勿转载。

初创公司，要颠覆芯片设计

admin

733

被嘲笑只有沙发彩电的理想，怎么在智能化上跑这么快？

极客公园

1,504

DeepSeek+华为芯片！“卷王”硅基流动交出DeepSeek推理国产方案，持平英伟达们

硅星人Pro

565

李飞飞看中的万亿赛道，中国首个自研空间智能AI登场！单张图即生3D世界

新智元

1,021

火热报名中！Global AI Bootcamp•北京——AIGC前沿洞察与企业应用落地！

AIGC开放社区

1,708

2024年WAIC·云帆奖启航：擎启AGI时代，集结超越边界的探索者

机器之心

2,700

暂无评论

暂无评论...

清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

文章摘要

原文和模型

当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

Sora的真实使用体验

相关文章

暂无评论

热门网址

热门文章

清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

文章摘要

原文和模型

当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

Sora的真实使用体验

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章