
文章摘要
ChatGPT agent的发布标志着人工智能领域的一次重大突破,它首次将Operator、Deep Research和ChatGPT三大技术优势无缝融合,形成了一个统一的智能体系统。这一系统不仅能够自主执行复杂的任务,如浏览网页、筛选信息、运行代码、生成PPT和Excel等,还能够在任务执行过程中保持与人类的互动,随时接受中断或接管。在HLE测试中,ChatGPT agent取得了41.6%的高分,并在数学FrontierMath基准上刷新了SOTA,显著超越了o4-mini和o3模型。
ChatGPT agent的核心优势在于其端到端的强化学习能力,使其在执行任务时表现出极高的效率和数据利用率。它能够通过文本浏览器和可视化浏览器与网页交互,并通过终端和API访问权限执行更复杂的操作。此外,它还能够连接Gmail、Github等应用,根据提示找到相关信息并给出回复。在演示中,ChatGPT agent展示了其在婚礼策划、贴纸设计和PPT生成等任务中的强大能力,甚至能够在执行一个任务的同时处理另一个任务,表现出极高的灵活性和效率。
在多项基准测试中,ChatGPT agent的表现均刷新了纪录。在HLE测试中,其得分达到了41.6%,并在并行策略下提升至44.4%。在FrontierMath基准测试中,其准确率达到了27.4%,显著超越了o3和o4-mini模型。此外,在内部设计的「高经济价值知识工作」测试中,ChatGPT agent在半数案例中的输出质量与人类相当,甚至优于人类。在Excel编辑能力的SpreadsheetBench测试中,其得分显著超越了Excel Copilot。
ChatGPT agent的出现不仅提升了AI在日常和专业领域的实用性,还为未来的AI发展提供了新的方向。OpenAI认为,2025年之后,AI智能体将成为一种全新的杠杆机制,能够通过「复制粘贴」无限扩展,极大地提升个体和小团队的产出。这种「超级个体」模式有望在未来重塑企业的组织架构,凭借AI实现指数级增长。
值得一提的是,这次直播中,有两位华人学者孙之清和Casey Chu同时出镜,他们在OpenAI的研究中发挥了重要作用。孙之清是Deep Research的研究负责人,而Casey Chu则是DALL·E 2的共同一作,并主导了GPT-4视觉输入的初始原型开发。他们的贡献进一步推动了ChatGPT agent的研发和应用。
原文和模型
【原文链接】 阅读原文 [ 2635字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★