当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

 

文章摘要


【关 键 词】 技术革新国内外发展Vidu特点全面对标Sora技术架构

本文介绍了由生数科技联合清华大学最新发布的视频大模型「Vidu」,该模型在视频生成领域取得了显著的技术突破。以下是对文章内容的详细摘要:

1. 技术革新:Adobe旗下的Premiere Pro通过引入AI视频工具,如Sora、Runway、Pika等,实现了在视频中添加或消除物体以及生成视频片段的能力,这被视为视频领域的技术革新。

2. 国内外发展对比:尽管海外在视频生成领域取得了显著进展,但国内在长视频生成方向仍处于起步阶段。然而,生数科技发布的「Vidu」视频模型展示了令人惊喜的成果。

3. 「Vidu」的特点
生成的视频时长可达16秒,画面效果接近Sora
– 在多镜头语言、时间和空间一致性、遵循物理规律等方面表现出色。
能虚构出真实世界不存在的超现实主义画面

4. 国内首个全面对标Sora的视频模型:「Vidu」在效果层面全面对标Sora,具有以下优势:
注入镜头语言,提升叙事效果
保持时间和空间的一致性,提高视频连贯性
模拟真实物理世界,如物体移动和相互作用
丰富的想象力,能生成现实世界中不存在的画面
理解并生成特有中国元素的画面

5. 快速突破的背后:生数科技的核心成员来自清华大学人工智能研究院,专注于多模态生成领域。团队在1月份上线了短视频生成功能,随后加快研发进度,在短时间内取得了显著的技术突破。

6. 技术架构:「Vidu」底层基于完全自研的U-ViT架构,该架构是全球首个Diffusion和Transformer融合的架构,早于Sora采用的DiT架构。

综上所述,「Vidu」视频模型在视频生成领域展现了强大的技术实力和创新能力,有望推动国内视频生成技术的发展。

原文和模型


【原文链接】 阅读原文 [ 5558字 | 23分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...