华为与哈工深等最新研究成果：SPA-Bench，手机操控智能体评估新标准

938 0 0

文章摘要

华为诺亚方舟实验室与哈尔滨工业大学（深圳）联合提出了SPA-Bench（SmartPhone Agent Benchmark），一个全新的评估框架，旨在解决现有手机智能体基准测试的局限性。SPA-Bench通过覆盖340个任务、支持中英双语和第三方应用操作，以及提供自动化评估流程和多维度指标，重新定义了手机操控智能体的研究与评估标准。

SPA-Bench的核心设计包括全面的任务设计、灵活的智能体框架和高效的自动化流程。任务设计覆盖真实场景，分为单应用任务和跨应用任务两大类，涵盖58个常用第三方应用，支持中英双语。智能体框架高度灵活，支持快速集成现有智能体模型，并进行横向对比。自动化流程提供全面的任务验证，通过七个关键指标全面衡量智能体表现。

实验结果显示，不同智能体在任务成功率上表现差异显著，M3A整体表现最优。智能体在单应用任务中的成功率高于跨应用任务，英文任务成功率显著优于中文任务。基于专有模型的智能体表现明显优于基于开源模型的智能体。

未来研究方向包括增强视觉感知、丰富数据集多样性、改进记忆保留机制、强化反思与错误处理、优化任务终止判断以及提升执行效率与成本优化。SPA-Bench的提出为手机操控智能体研究提供了一个强大的工具，有望进一步推动手机智能体技术的普及与实际应用。