用大模型控制鼠标、键盘!OpenAI最想做的事,让Anthropic抢先了

AIGC动态2个月前发布 AIGCOPEN
396 0 0
用大模型控制鼠标、键盘!OpenAI最想做的事,让Anthropic抢先了

 

文章摘要


【关 键 词】 人工智能自动化自然语言处理计算机交互效率提升

Anthropic公司最近发布了Claude 3.5 Sonnet的升级版和新模型Claude 3.5 Haiku,并推出了一项名为Computer use的革命性功能。这项功能允许开发者通过API让Claude像人类一样使用计算机,执行控制鼠标、键盘、查看屏幕、移动光标、点击按钮和输入文本等操作。用户可以利用这一功能让Claude搜索网页信息、填写电子表格数据、打开软件进行特定操作,以及协助开发人员执行重复性任务和测试代码。

Computer use技术原理主要依靠API驱动自动化指令。当开发者通过API向Claude发送指令时,Claude会运用其自然语言处理能力解析指令,识别关键动作和数据来源,然后将指令意图映射到对应的计算机操作概念上,预训练的知识包括常见的计算机操作术语、软件功能描述等,以便准确执行特定操作。

为了实现与计算机的交互功能,Claude通过API控制Windows、MacOS等系统中的底层框架,包括鼠标、键盘、按钮、文本框等。当Claude确定了要执行的计算机操作后,就会开始执行具体的动作,如移动光标、点击按钮、输入文本等。

新模型Claude 3.5 Haiku在3.0基础上进行了大幅度更新,在相同成本的情况下推理效率、性能得到显著增强。在编码任务方面,Claude 3.5 Haiku在SWE-bench Verified上得分达到了40.6%,超越了许多使用公开可用的最先进模型的模型。此外,Claude 3.5 Haiku在低延迟推理和提示指令遵循方面也有很大的改进,能够快速响应用户的指令,减少等待时间,提高工作效率,并且更加准确地理解用户的指令,执行相应的任务。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1919字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...