文章摘要
【关 键 词】 AI交互、桌面应用、智能编码、风险防控、功能测试
AI初创公司Anthropic推出了一项名为“计算机使用”的新功能,使大型AI模型能够理解并交互桌面应用程序,执行如模拟按键、点击按钮、鼠标手势和输入文本等操作。这一功能标志着AI在计算机操作能力上与人类相当,能够使用日常软件和工具。
Anthropic的Claude 3.5 Sonnet模型是首个提供“计算机使用”功能的模型,它在智能体编码和工具使用任务中表现出色。AI驱动图像初创公司EverAI的创始人Pietro Schirano称赞Claude 3.5 Sonnet为“世界上最好的编码模型”。此外,Anthropic还发布了Claude 3.5 Haiku,它在成本和速度上与最小体量系统相当,但能重现公司最大体量系统的性能。
尽管Claude 3.5 Sonnet在某些任务中表现优异,但仍存在局限性,如在执行编码任务时可能会放弃,转而进行其他活动。Anthropic承认,3.5 Sonnet在滚动、缩放等操作方面存在困难,需要通过快速连续截屏来实现操作,无法处理实时视频流,可能会错过短暂的通知或其他变更。
Anthropic表示,计算机使用功能仍处于实验阶段,正在测试和改进功能。参与试点的企业客户包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company。软件开发平台Replit已使用3.5 Sonnet模型的早期版本创建“自主验证器”,而Canva公司正在探索利用新模型支持设计和编辑流程的方法。
Anthropic的“计算机使用”功能通过训练Claude模型准确计算像素来实现操作,与微软UFO的工作原理不同。Anthropic还开发了分类器以防止3.5 Sonnet进行高风险行为,并保留屏幕截图至少30天,但不会用这些数据训练新模型,同时阻止模型在训练期间访问网络。
尽管存在风险,Anthropic认为新功能的利大于弊,并鼓励用户采取预防措施,如将Claude与高度敏感的数据隔离。这一新功能引发了关于AI工具可能带来的便利与潜在风险的讨论。
原文和模型
【原文链接】 阅读原文 [ 3117字 | 13分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★