智元机器人发布并开源首个机器人动作序列驱动的世界模型

1,242 0 0

文章摘要

智元机器人近日发布了具身智能领域的两项重要突破：全球首个基于机器人动作序列驱动的具身世界模型 EVAC（EnerVerse-AC），以及具身世界模型评测基准 EWMBench。这两项成果现已全面开源，旨在构建“低成本模拟 – 标准化评测 – 高效迭代”的全新开发范式，推动具身智能研究的技术落地与产业发展。

EVAC 是全球首个能够动态复现机器人与环境复杂交互的世界模型，标志着从传统仿真到生成式模拟的跃迁。该模型基于前序工作 EnerVerse 架构持续演进，创新性地引入了多级动作条件注入机制，实现了“物理动作 – 视觉动态”的端到端生成。EVAC 的核心能力包括：机器人动作与像素的高精度对齐、动态多视图建模、卓越的长时序一致性以及数据高效利用。通过这些能力，EVAC 能够精准建模复杂的动力学行为，并生成连贯且真实的视觉场景。

EVAC 的生成式仿真评测方案能够与待评测的策略模型进行交替推理，构建起一套完整的交互式评测管线。实验显示，EVAC 生成的评测结果与真机评测的成功率具有高度一致性，甚至能够可靠地识别出性能更优的模型权重，大幅提升了策略模型的筛选效率。此外，EVAC 还能够基于极少量的专家轨迹数据进行大规模数据增广，应用结果表明，采用 EVAC 数据增广数据训练的策略模型，其任务成功率提升高达 29%，目标跟随性得到显著改善。

为了科学、系统地衡量具身世界模型的性能表现，智元机器人推出了全球首个具身世界模型评测基准——EWMBench。EWMBench 构建了立体化的评估体系，从场景一致性、动作合理性与语义对齐与多样性三大核心指标进行分析。该基准基于行业领先的开源百万真机数据集 AgiBot World 构建，涵盖了家居、工业、医疗三大场景的 10 类典型机器人操作任务和多种交互对象，全面验证模型在复杂环境下的鲁棒性。

EWMBench 在评测结果与人类主观判断的一致性方面表现更优，能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。通过 EWMBench 提供的精细化、多维度量化分析，研发团队可以精准定位 EVAC 在处理复杂场景的潜在不足，从而进行更具针对性的优化。

EnerVerse 作为强大的世界模型基础架构，为 EVAC 提供可靠的基础框架与预训练能力，而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化，二者形成“训练 – 验证”技术闭环，不断推动模型性能突破。EVAC 与 EWMBench 组合方案已正式入选 AgiBot World Challenge @ IROS 2025 – World Model 赛道的官方基线系统与评测标准。

这两项创新成果的发布，不仅为具身智能研究提供了全新的技术工具和评测标准，也为全球研究者和开发者提供了开源资源，加速了具身智能技术的落地与产业发展。