华为与哈工深等最新研究成果:SPA-Bench,手机操控智能体评估新标准

AI-Agent1个月前发布 aitechtalk
292 0 0
华为与哈工深等最新研究成果:SPA-Bench,手机操控智能体评估新标准

 

文章摘要


【关 键 词】 智能评估手机智能体任务设计自动化流程性能对比

华为诺亚方舟实验室与哈尔滨工业大学(深圳)联合提出了SPA-Bench(SmartPhone Agent Benchmark),一个全新的评估框架,旨在解决现有手机智能体基准测试的局限性。SPA-Bench通过覆盖340个任务、支持中英双语和第三方应用操作,以及提供自动化评估流程和多维度指标,重新定义了手机操控智能体的研究与评估标准。

SPA-Bench的核心设计包括全面的任务设计、灵活的智能体框架和高效的自动化流程。任务设计覆盖真实场景,分为单应用任务和跨应用任务两大类,涵盖58个常用第三方应用,支持中英双语。智能体框架高度灵活,支持快速集成现有智能体模型,并进行横向对比。自动化流程提供全面的任务验证,通过七个关键指标全面衡量智能体表现。

实验结果显示,不同智能体在任务成功率上表现差异显著,M3A整体表现最优。智能体在单应用任务中的成功率高于跨应用任务,英文任务成功率显著优于中文任务。基于专有模型的智能体表现明显优于基于开源模型的智能体。

未来研究方向包括增强视觉感知、丰富数据集多样性、改进记忆保留机制、强化反思与错误处理、优化任务终止判断以及提升执行效率与成本优化。SPA-Bench的提出为手机操控智能体研究提供了一个强大的工具,有望进一步推动手机智能体技术的普及与实际应用。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3955字 | 16分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...