OpenAI 想了快 10 年的超级智能体终于来了！有惊喜，但比智谱晚还“翻车”系数高？

1,673 0 0

文章摘要

2025年，OpenAI推出了Operator，一款能够访问Web并执行任务的智能体，目前仅对美国Pro套餐用户开放，未来将扩展至其他用户群体并集成至ChatGPT。Operator能够处理重复性的浏览器任务，如填写表格、订购杂货等，但存在一定的失败率。技术上，Operator通过屏幕截图和鼠标键盘操作来执行Web操作，无需自定义API集成，并具备自我纠正能力。尽管如此，Operator在执行复杂界面任务时表现不佳，目前仅提供研究预览版。

与此同时，智谱升级了GLM-PC智能体，主打“代码思维”，新增“深度思考”模式，强化了逻辑推理和代码生成功能。GLM-PC在处理复杂逻辑任务和开放性问题上展现出更高的适应能力、创造力和泛化能力，尤其在循环任务处理、多步推理执行以及长链条任务管理等方面。GLM-PC通过代码形式指挥工作流程和工具调用，强化深度思考模式下的规划、推理、反思能力，有效自我纠正与优化。

Operator由Computer-Using Agent（CUA）模型支持，结合GPT-4o的视觉功能和强化学习的高级推理，与图形用户界面（GUI）交互。而GLM-PC采用“左右脑”协作模式，左脑负责代码生成与逻辑执行，右脑专注于深度感知与交互体验，背后是智谱自主研发的CogAgent与CodeGeex模型。

OpenAI计划公开支持Operator的CUA模型，以便开发人员构建自己的计算机使用智能体。智谱则准备将GLM-PC与AIPC深度融合，并与PC厂商探讨合作。OpenAI创始成员Andrej Karpathy认为2025-2035年是智能体的十年，智能体将像类人机器人一样在数字世界发挥作用，人类将成为低级自动化的高级主管。尽管存在挑战，但智能体的未来发展充满潜力。