真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」

文章摘要
最近,智能体(Agent)在AI领域再次成为焦点。2025年1月,OpenAI发布了名为DeepResearch的o3模型变种,专门用于网页和文档搜索。该模型通过强化学习训练,具备了制定搜索策略、交叉引用信息来源以及处理深层次知识的能力。与此同时,Claude Sonnet 3.7也将同样的强化学习方法应用于代码领域,展现出超越以往模型的组合应用效果。摩根斯坦利学者William Brown指出,LLM智能体已经能够完成长时间、多步骤的任务。这一进展不仅提升了智能体的能力,也引发了对LLM智能体本质的深入探讨。
Anthropic在2024年12月提出了LLM智能体的新定义,认为它是能够动态指导自身流程和工具使用,并保持对任务完成方式控制的系统。相比之下,目前更为普遍的智能体实际上是工作流系统(workflows),即通过预设的代码和规则来协调LLM和工具的系统,如Manus AI。对于开发者而言,LLM智能体形成的工作流系统能否提高生产力、在多大程度上提高,才是关键问题。然而,近期测试显示,这些系统存在显著局限性,如无法有效制定计划、记忆内容或长期执行任务。
传统的智能体与基础大语言模型(base LLM)存在根本性差异。传统智能体在受限环境中通过强化学习进行训练,逐步总结出模式和启发式策略来优化行为。然而,基础LLM只能处理当前窗口内的信息,无法规划长期策略,面对多步推理任务时容易超载。目前,大部分LLM智能体利用预定义的提示词和规则来引导模型,但这种方法存在“苦涩的教训”,即过度依赖规则设计会限制系统的自我优化和进化。
真正的LLM智能体应通过强化学习和推理相结合的方式进行训练。强化学习RL让智能体在所有可能的文本组合中寻找目标,验证器则用于形式化结果。草稿模式(Drafts)和多步训练是LLM智能体训练的关键,模型通过生成草稿并评估来优化策略。结构化输出(rubric)和多步训练进一步简化了推理过程,提升了模型的搜索和规划能力。
然而,实现LLM智能体的规模化仍面临挑战。目前,开放强化学习/推理研究主要集中在数学领域,缺乏其他领域的真实动作序列数据。通过模拟生成数据可能是解决这一问题的途径,但这一过程需要大量的计算资源和时间。Game RL和Pufferlib等方法的成功经验表明,将环境包装成特定形式可以提升训练效率。
最终,真正的LLM智能体将能够动态引导自身的处理流程和工具使用,自主掌控任务的完成方式。在搜索场景中,LLM智能体将整合向量数据库、路由和重排序等复杂操作,实现RAG的自动化。这种智能体不仅能够提升搜索质量,还能在其他领域如网络工程和金融中发挥重要作用。
尽管目前只有大型实验室能够开发真正的LLM智能体,但让这一技术的训练和部署走向大众化已刻不容缓。开放验证器、GRPO训练样本以及复杂合成管道和模拟器的引入,将推动LLM智能体的普及。2025年可能是智能体元年,这一技术的颠覆潜力和价值获取能力将深刻影响未来的AI发展。
原文和模型
【原文链接】 阅读原文 [ 4916字 | 20分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★