Vidu直逼Sora，生数科技：还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

AIGC动态1年前 (2024)发布 Si-Planet

2,110 0 0

Vidu直逼Sora，生数科技：还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

文章摘要

在2024年4月27日的中关村论坛上，生数科技与清华大学联合发布了中国首个长时长、高一致性、高动态性的视频大模型——Vidu。Vidu能够一键生成16秒、1080P分辨率的视频内容，其一致性和运动幅度已达到Sora水准。尽管Vidu的视频时长尚未超过Sora最长的60秒，但其整体性能已经可以与Sora相媲美。生数科技的核心团队来自清华人工智能研究院，由副院长朱军博士牵头。公司表示，Vidu的视频时长将继续突破，并且其架构支持多模态，视频模态仅是当前阶段的重点。Vidu的模型架构灵活，未来将兼容更广泛的多模态能力，显示出生数科技的野心远不止成为中国的Sora。

为了评估Vidu的性能，生数科技逐帧对比了Vidu与Sora在多个场景下的表现。在经典走路场景中，Vidu生成的街头美女、帅哥和熊的走路效果与Sora不相上下，但在人物动作协调性方面略逊一筹。在越野车行驶场景中，Vidu的丛林背景呈现出3D动画效果，而Sora的背景更具真实性。在展示中国龙的场景中，Vidu和Sora都展现了各自的特点，但Sora的视频画面丰富度更高。在人物眼睛特写场景中，Vidu的表现与Sora不相上下，难以区分是真实拍摄还是AI生成。在电视合集场景中，Vidu的画面丰富度和运镜效果与Sora相当。在狗狗游泳场景中，Sora生成的狗狗动态感和真实感更强，但Vidu对狗狗游泳时腿部毛发漂浮的细节处理得也很好。在“带珍珠的猫”场景中，Vidu展现了玄幻风格，镜头旋转后毛发细节感表现不错。在船与“海”的场景中，Vidu的波浪流动符合物理规则，与Sora不相上下。最后，在宇航员场景中，Vidu和Sora都提供了有趣的不同视角。

综上所述，Vidu在多个场景下的表现已经接近或达到Sora的水平，显示出中国在视频生成技术方面的重要进展。生数科技的Vidu模型不仅在视频生成方面具有潜力，而且其灵活的架构预示着未来在多模态领域的广泛应用。