文章摘要
【关 键 词】 AI测试、电脑操控、游戏任务、办公自动化、性能评估
新加坡国立大学的研究团队对AI系统Claude进行了全面测试,发现其在20多个场景下展现出强大的电脑操控能力。在游戏领域,Claude能够自动完成《崩坏:星穹铁道》的日常任务,包括打开游戏菜单、设置挑战次数、启动自动战斗等,显示出对游戏规则和目标的智能理解。此外,Claude还能处理网页搜索、工作流程、办公生产力软件等日常办公任务,如在Amazon和Apple官网购物、编辑Excel数据、安装应用等。
研究团队还提出了一个基于Claude的自动GUI框架,该框架包括系统提示、状态观察、推理范式、工具使用、GUI动作空间和历史视觉上下文维护六个部分。通过这个框架,Claude能够与计算机交互,执行各种任务。
在性能测试中,团队在Windows和macOS上通过ComputerUse Out-of-the-Box平台进行评估,覆盖了网页搜索、工作流程、办公生产力软件和视频游戏等多个领域。尽管在一些复杂页面操作中出现了失败案例,如Fox Sports订阅任务和Word、PPT中的特定操作,但整体而言,Claude的表现令人印象深刻。研究团队已公开所有测试用例的具体信息,供有兴趣者查看。随着技术的不断进步,Claude的未来应用前景广阔。
原文和模型
【原文链接】 阅读原文 [ 1357字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...