OpenAI教你做Agent:2025年,评估标准和如何产品化是Agent的重点

文章摘要
AI agent 的发展在2024年至2025年间发生了显著变化,尤其是在信息获取和工作流方面。从单次搜索决策模式转变为完全自主的Deep Research模式,agent能够同时打开多个网页,节省时间并重新评估立场。这种转变得益于CoT(Chain of Thought)与tool use的结合,使得agent在推理过程中能够自主调用多个工具,并在发现错误时及时调整方向。OpenAI预测,agent可调用的工具数量将在几个月内从10个量级扩展到100个量级,这将带来更大的灵活性和效率。
Multi-agent系统的出现进一步提升了工作效率和可控性。通过将任务拆分为多个子任务,每个agent专注于特定任务,整体工作流得到了优化。这种分工不仅提高了效率,还使得每个agent的修改和调试更加独立,降低了风险。Vertical agent在这一系统中直接受益,尤其是在计算机使用领域,Virtual Machine(虚拟机)可能成为未来的创业机会。
开发者在这一趋势中扮演着关键角色。通过构建评估微调飞轮,开发者能够创建特定领域的评估器,帮助模型找到正确的tool use路径。目前,评估器不仅限于简单的字符串比对,还能通过执行代码来验证数学正确性。这种强化微调的方法使得模型在特定任务上的表现更加精准,未来有望在医疗、法律等专业领域实现更深入的应用。
Computer Use的应用场景也在不断扩展。从自动化繁琐的手工操作到Google Maps的街景模式分析,agent正在帮助企业在没有API的传统软件系统中实现自动化。未来,基于不同操作系统生态的VM(虚拟机)可能会成为新的创业方向,类似于iOS测试框架的专门化服务。
在开发者实践中,API的易用性和可定制性之间的平衡是一个重要课题。OpenAI通过“阶梯式API”设计,简化了入门门槛,同时提供了高度可定制的选项。开发者可以从简单的API调用开始,逐步根据需求调整参数,这种设计使得API既易于上手,又具备强大的扩展能力。
总体来看,AI agent的发展正在从单一工具调用向多工具、多agent协作的方向迈进。随着模型能力的提升和工具的丰富,agent将在更多领域实现自动化,解决复杂问题。开发者需要不断探索如何更好地利用这些工具,构建高效的工作流,推动AI技术在各个行业的深入应用。
原文和模型
【原文链接】 阅读原文 [ 9592字 | 39分钟 ]
【原文作者】 Founder Park
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★