拳打可灵,脚踢 Veo 3,谁是物理世界的「懂王」?

文章摘要
【关 键 词】 视频生成、多模态模型、复杂运动、成本优势、技术迭代
MiniMax最新发布的Hailuo 02视频生成模型在全球范围内引发关注,其技术表现与成本优势成为核心亮点。该模型在Artificial Analysis评测中超越谷歌Veo 3和快手Kling 2.0,位列全球第二,其突破性能力主要体现在复杂运动场景的物理规律还原与跨帧连贯性处理上。通过“马跃障碍”“滑雪轨迹”“杂技抛球”等测试案例可见,模型能精准呈现力传递层次感、动态环境交互及多物体轨迹追踪,成为目前唯一实现极限物理运动视频效果的模型。
技术架构层面,Hailuo 02采用全新Noise-aware Compute Redistribution(NCR)系统,通过噪声调度和联合学习优化效率。训练推理效率提升2.5倍的背景下,模型参数量扩大三倍、数据量增加四倍,显著增强意图理解能力。测试显示其复杂指令响应率达85%,在“动画风格骑行”等场景中能准确捕捉导演意图,避免同类模型出现的背景误判、物体消失等问题。这种进步源于模型对画面语义和人类动作直觉的深度理解,例如通过服饰、环境线索推断场景类型。
成本控制是另一大竞争优势。Hailuo 02的生成价格仅为谷歌Veo 3的1/9,1080P高清输出成本显著低于行业标杆。这种性价比源于MiniMax“技术民主化”的定位,其底层设计始终围绕普通创作者的可用性展开。官方透露下一步将聚焦生成速度、输出稳定性及高阶功能开发,持续推动多模态模型对物理世界的还原能力。
从AGI发展视角看,Hailuo 02的升级不仅代表视频生成技术的突破,更反映了多模态系统对世界规则认知的深化。效率提升带来的智能冗余使模型能兼顾性能与成本,而物理规律建模与人类意图对齐的协同优化,则标志着AI正从静态画面生成迈向动态交互理解的新阶段。
原文和模型
【原文链接】 阅读原文 [ 3315字 | 14分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆