文章摘要
【关 键 词】 AI模型、人机交互、自动化、编码能力、多步骤任务
Anthropic AI公司近期推出了Claude 3.5系列AI模型,包括Claude 3.5 Haiku和Claude 3.5 Sonnet,这两个模型在性能上都有显著提升。Claude 3.5 Sonnet在推理能力上超越了OpenAI的o1模型,尤其在编码能力上表现突出。而Claude 3.5 Haiku则与上一代的Claude 3 Opus性能相当,但在成本和速度上与上一代Haiku相近。
最引人注目的是,Claude 3.5 Sonnet模型现在能够模拟人类使用计算机的能力,包括查看屏幕、移动光标、点击按钮和输入文本。这一功能标志着人机交互的新范式,预示着AI模型的新基础能力。尽管这一功能还处于实验阶段,可能会有错误,但Anthropic希望通过开发者的反馈快速改进。
在实际演示中,Claude能够自行使用搜索引擎、打开地图、查看日历并安排日程,甚至能够完成网站编程任务,包括下载文件、在代码编辑器中打开文件、启动服务器以及修复代码错误。此外,Claude还能够自动寻找数据并填写表格,显示出在自动化繁琐任务方面的潜力。
多家知名公司,如Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等,正在探索Claude的新功能,以执行复杂的多步骤任务。在OSWorld测试中,Claude 3.5 Sonnet的表现超越了其他AI系统,尽管其得分远低于人类的表现,显示出仍有改进空间。
Anthropic AI公司还强调了Claude 3.5 Sonnet在编码能力上的突破,以及在工具使用任务中的出色表现。同时,Claude 3.5 Sonnet在价格和运行速度上保持了与前代模型的一致性。此外,Claude 3.5 Haiku在编码任务上也表现出色,超越了包括GPT-4o在内的其他先进模型。
Anthropic AI公司在开发过程中,通过训练Claude准确计算像素来执行命令,使其能够将用户指令转化为逻辑步骤并执行操作。尽管Claude在操作电脑方面还有挑战,如滚动、拖拽和缩放等,但Anthropic AI公司对未来的改进持乐观态度,并期待AI操作电脑的能力将迅速进步。
原文和模型
【原文链接】 阅读原文 [ 4624字 | 19分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★