Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控:GUI智能体的黎明

AIGC动态1个月前发布 QbitAI
433 0 0
Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控:GUI智能体的黎明

 

文章摘要


【关 键 词】 AI测试电脑操控游戏任务办公自动化性能评估

新加坡国立大学的研究团队对AI系统Claude进行了全面测试,发现其在20多个场景下展现出强大的电脑操控能力。在游戏领域,Claude能够自动完成《崩坏:星穹铁道》的日常任务,包括打开游戏菜单、设置挑战次数、启动自动战斗等,显示出对游戏规则和目标的智能理解。此外,Claude还能处理网页搜索、工作流程、办公生产力软件等日常办公任务,如在Amazon和Apple官网购物、编辑Excel数据、安装应用等。

研究团队还提出了一个基于Claude的自动GUI框架,该框架包括系统提示、状态观察、推理范式、工具使用、GUI动作空间和历史视觉上下文维护六个部分。通过这个框架,Claude能够与计算机交互,执行各种任务。

在性能测试中,团队在Windows和macOS上通过ComputerUse Out-of-the-Box平台进行评估,覆盖了网页搜索、工作流程、办公生产力软件和视频游戏等多个领域。尽管在一些复杂页面操作中出现了失败案例,如Fox Sports订阅任务和Word、PPT中的特定操作,但整体而言,Claude的表现令人印象深刻。研究团队已公开所有测试用例的具体信息,供有兴趣者查看。随着技术的不断进步,Claude的未来应用前景广阔。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1357字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...