当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律
文章摘要
【关 键 词】 技术革新、国内外发展、Vidu特点、全面对标Sora、技术架构
本文介绍了由生数科技联合清华大学最新发布的视频大模型「Vidu」,该模型在视频生成领域取得了显著的技术突破。以下是对文章内容的详细摘要:
1. 技术革新:Adobe旗下的Premiere Pro通过引入AI视频工具,如Sora、Runway、Pika等,实现了在视频中添加或消除物体以及生成视频片段的能力,这被视为视频领域的技术革新。
2. 国内外发展对比:尽管海外在视频生成领域取得了显著进展,但国内在长视频生成方向仍处于起步阶段。然而,生数科技发布的「Vidu」视频模型展示了令人惊喜的成果。
3. 「Vidu」的特点:
– 生成的视频时长可达16秒,画面效果接近Sora。
– 在多镜头语言、时间和空间一致性、遵循物理规律等方面表现出色。
– 能虚构出真实世界不存在的超现实主义画面。
4. 国内首个全面对标Sora的视频模型:「Vidu」在效果层面全面对标Sora,具有以下优势:
– 注入镜头语言,提升叙事效果。
– 保持时间和空间的一致性,提高视频连贯性。
– 模拟真实物理世界,如物体移动和相互作用。
– 丰富的想象力,能生成现实世界中不存在的画面。
– 理解并生成特有中国元素的画面。
5. 快速突破的背后:生数科技的核心成员来自清华大学人工智能研究院,专注于多模态生成领域。团队在1月份上线了短视频生成功能,随后加快研发进度,在短时间内取得了显著的技术突破。
6. 技术架构:「Vidu」底层基于完全自研的U-ViT架构,该架构是全球首个Diffusion和Transformer融合的架构,早于Sora采用的DiT架构。
综上所述,「Vidu」视频模型在视频生成领域展现了强大的技术实力和创新能力,有望推动国内视频生成技术的发展。
原文和模型
【原文链接】 阅读原文 [ 5558字 | 23分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★