Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

AI-Agent2年前 (2024)发布 AIera

2,389 0 0

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

文章摘要

Anthropic AI公司近期推出了Claude 3.5系列AI模型，包括Claude 3.5 Haiku和Claude 3.5 Sonnet，这两个模型在性能上都有显著提升。Claude 3.5 Sonnet在推理能力上超越了OpenAI的o1模型，尤其在编码能力上表现突出。而Claude 3.5 Haiku则与上一代的Claude 3 Opus性能相当，但在成本和速度上与上一代Haiku相近。

最引人注目的是，Claude 3.5 Sonnet模型现在能够模拟人类使用计算机的能力，包括查看屏幕、移动光标、点击按钮和输入文本。这一功能标志着人机交互的新范式，预示着AI模型的新基础能力。尽管这一功能还处于实验阶段，可能会有错误，但Anthropic希望通过开发者的反馈快速改进。

在实际演示中，Claude能够自行使用搜索引擎、打开地图、查看日历并安排日程，甚至能够完成网站编程任务，包括下载文件、在代码编辑器中打开文件、启动服务器以及修复代码错误。此外，Claude还能够自动寻找数据并填写表格，显示出在自动化繁琐任务方面的潜力。

多家知名公司，如Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等，正在探索Claude的新功能，以执行复杂的多步骤任务。在OSWorld测试中，Claude 3.5 Sonnet的表现超越了其他AI系统，尽管其得分远低于人类的表现，显示出仍有改进空间。

Anthropic AI公司还强调了Claude 3.5 Sonnet在编码能力上的突破，以及在工具使用任务中的出色表现。同时，Claude 3.5 Sonnet在价格和运行速度上保持了与前代模型的一致性。此外，Claude 3.5 Haiku在编码任务上也表现出色，超越了包括GPT-4o在内的其他先进模型。

Anthropic AI公司在开发过程中，通过训练Claude准确计算像素来执行命令，使其能够将用户指令转化为逻辑步骤并执行操作。尽管Claude在操作电脑方面还有挑战，如滚动、拖拽和缩放等，但Anthropic AI公司对未来的改进持乐观态度，并期待AI操作电脑的能力将迅速进步。