李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

1,895 0 0

文章摘要

李飞飞和吴佳俊团队提出了一个新的评估框架——Embodied Agent Interface（EAI），旨在全面检查具身智能决策的四项关键子能力。EAI框架提供了统一的目标表示方法，使用线性时态逻辑（LTL）来描述目标，增强了模块间的互操作性。该框架采用模块化的评估方式，将评估指标细粒度划分，以深入理解大模型的行为模式和优劣势分布。EAI框架将模型能力分为四个关键模块：目标解释、子目标分解、动作序列规划和转换建模，并从多个角度评估模型性能。

EAI框架在BEHAVIOR和VirtualHome两个环境中对18款主流模型进行了测试，结果显示o1-preview的综合成绩位列第一。在BEHAVIOR环境中，o1-preview得分74.9，远超其他模型。在VirtualHome环境中，o1-preview依然领先，但前三名成绩相对接近。不同模型在单项能力上展现出各自的优势。作者还对模型失败情况进行了深入分析，发现了模型的具体问题，为后续研究提供了重要参考。

EAI框架已被选为NeurIPS数据和测试集（D&B）专栏Oral论文，并被收录进PyPI，可通过一行代码快速调用。这一成果为大模型具身智能决策的未来塑造提供了重要贡献。项目主页、论文、代码和数据集的链接已提供。