钛媒体AGI独家｜“中国版Sora”视频大模型Vidu重大更新：时长延至32秒，首次支持音视频合成

AIGC动态1年前 (2024)发布 TMTPOSTAGI

2,804 0 0

钛媒体AGI独家｜“中国版Sora”视频大模型Vidu重大更新：时长延至32秒，首次支持音视频合成

文章摘要

中国自研视频大模型Vidu取得显著进展，完成了三个重大技术迭代，标志着国产视频生成技术的一大步跨越。
首先，Vidu已能够一键生成长达32秒的视频，相较于之前有了显著的时长提升。
其次，该模型首次实现了音视频合成，即Text-2-Audio技术，能在生成的视频中同步加入自然匹配的声音效果。第三，Vidu支持4D生成技术，能够从单一视频中精确重构出时空一致的4D内容。

在实际效果演示中，Vidu展示了其强大且逼真的视频生成能力，如图书馆地球仪旋转、画室中的船驶向镜头、汽车在陡峭山坡上行驶以及围绕老式电视旋转的场景，均实现了音画同步，提升了观看体验。

Vidu模型由生数科技与清华大学联合研发，采用原创的Diffusion与Transformer融合架构U-ViT，支持高达1080P分辨率的视频内容生成。该模型不仅能够模拟真实世界，还能展现丰富想象力，并具备多镜头生成、时空一致性等特点。
此外，Vidu能理解并生成具有中国特色的元素，如熊猫、龙等。

值得注意的是，Vidu的研发团队在国内最早研究深度生成模型，并取得了全球首个融合架构多模态扩散模型UniDiffuser等突破。Vidu模型在底层算法实现上与Sora一致，基于单一模型完全端到端生成，无中间插帧等处理步骤。

作为自Sora发布后全球首个取得重大突破的视频大模型，Vidu展现了国内在视频生成领域的顶尖水平，并仍在加速迭代中。此外，生数科技也已完成数亿元Pre-A轮融资，以进一步推动大模型技术在产业中的应用，并公布“Vidu大模型合作伙伴计划”，旨在共同构建合作生态。