李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS

AI-Agent1周前发布 QbitAI
114 0 0
李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS

 

文章摘要


【关 键 词】 具身智能评估框架EAI模块化智能决策

李飞飞和吴佳俊团队提出了一个新的评估框架——Embodied Agent Interface(EAI),旨在全面检查具身智能决策的四项关键子能力。EAI框架提供了统一的目标表示方法,使用线性时态逻辑(LTL)来描述目标,增强了模块间的互操作性。该框架采用模块化的评估方式,将评估指标细粒度划分,以深入理解大模型的行为模式和优劣势分布。EAI框架将模型能力分为四个关键模块:目标解释、子目标分解、动作序列规划和转换建模,并从多个角度评估模型性能。

EAI框架在BEHAVIOR和VirtualHome两个环境中对18款主流模型进行了测试,结果显示o1-preview的综合成绩位列第一。在BEHAVIOR环境中,o1-preview得分74.9,远超其他模型。在VirtualHome环境中,o1-preview依然领先,但前三名成绩相对接近。不同模型在单项能力上展现出各自的优势。作者还对模型失败情况进行了深入分析,发现了模型的具体问题,为后续研究提供了重要参考。

EAI框架已被选为NeurIPS数据和测试集(D&B)专栏Oral论文,并被收录进PyPI,可通过一行代码快速调用。这一成果为大模型具身智能决策的未来塑造提供了重要贡献。项目主页、论文、代码和数据集的链接已提供。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1256字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...