
文章摘要
2025年被许多人视为“AI智能体元年”,然而当前大多数智能体仍处于实验阶段,尚未真正进入企业应用。李飞飞团队与多所大学及微软合作,推出了名为RAGEN的新系统,旨在提升人工智能在企业应用中的稳定性和可靠性。该项目由前DeepSeek研究员王子涵主导,专注于大语言模型的自主性、效率和长文本理解。RAGEN系统基于StarPO强化学习框架,通过多轮交互训练智能体,使其能够在不确定性中进行推理并记忆历史对话。RAGEN的核心在于训练智能体完成完整的决策路径,而非仅仅优化某一次回答。
RAGEN的训练框架包括两个交替阶段:rollout阶段生成完整的交互序列,update阶段根据累计奖励更新模型参数。研究团队使用阿里巴巴的Qwen系列模型进行微调,确保实验结果的可复现性。RAGEN不仅关注任务完成,更重视模型是否经历了学习与推理过程。该系统现已开源,采用MIT协议,托管于GitHub。
在训练过程中,智能体常陷入“回声陷阱”,即随着训练推进,模型倾向于重复高奖励回答,导致推理能力退化。为解决这一问题,RAGEN设计了三个符号化测试环境:Bandit、Sokoban和Frozen Lake,用于评估智能体的决策能力。这些测试环境剥离了现实世界的先验知识干扰,让智能体仅依赖训练中学到的策略进行决策。
为进一步提升训练稳定性,研究团队在StarPO框架基础上提出了增强版StarPO-S,引入了基于不确定性的rollout筛选、移除KL惩罚项和非对称PPO剪裁三项机制。这些策略显著减缓了训练崩溃问题,并在所有任务环境中带来了更好的表现。
尽管RAGEN在技术上取得了突破,但在企业应用中仍面临挑战。例如,RAGEN目前主要处理高度抽象的符号类问题,是否适用于发票处理、客户支持等真实业务流程尚不明确。此外,当任务长度足够长时,模型训练仍可能崩溃。RAGEN的意义不仅在于技术突破,更在于它标志着我们向具备自主推理能力的智能体目标迈进了一步。虽然其未来在企业中的应用尚不确定,但它在智能体学习机制上的新颖见解,已经悄然改变了对大型模型训练边界的理解和想象。
原文和模型
【原文链接】 阅读原文 [ 2304字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★