当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

AIGC动态1年前 (2024)发布 almosthuman2014

1,751 0 0

文章摘要

【关键词】 技术革新、国内外发展、Vidu特点、全面对标Sora、技术架构

本文介绍了由生数科技联合清华大学最新发布的视频大模型「Vidu」，该模型在视频生成领域取得了显著的技术突破。以下是对文章内容的详细摘要：

1. 技术革新：Adobe旗下的Premiere Pro通过引入AI视频工具，如Sora、Runway、Pika等，实现了在视频中添加或消除物体以及生成视频片段的能力，这被视为视频领域的技术革新。

2. 国内外发展对比：尽管海外在视频生成领域取得了显著进展，但国内在长视频生成方向仍处于起步阶段。然而，生数科技发布的「Vidu」视频模型展示了令人惊喜的成果。

3. 「Vidu」的特点：
– 生成的视频时长可达16秒，画面效果接近Sora。
– 在多镜头语言、时间和空间一致性、遵循物理规律等方面表现出色。
– 能虚构出真实世界不存在的超现实主义画面。

4. 国内首个全面对标Sora的视频模型：「Vidu」在效果层面全面对标Sora，具有以下优势：
– 注入镜头语言，提升叙事效果。
– 保持时间和空间的一致性，提高视频连贯性。
– 模拟真实物理世界，如物体移动和相互作用。
– 丰富的想象力，能生成现实世界中不存在的画面。
– 理解并生成特有中国元素的画面。

5. 快速突破的背后：生数科技的核心成员来自清华大学人工智能研究院，专注于多模态生成领域。团队在1月份上线了短视频生成功能，随后加快研发进度，在短时间内取得了显著的技术突破。

6. 技术架构：「Vidu」底层基于完全自研的U-ViT架构，该架构是全球首个Diffusion和Transformer融合的架构，早于Sora采用的DiT架构。

综上所述，「Vidu」视频模型在视频生成领域展现了强大的技术实力和创新能力，有望推动国内视频生成技术的发展。