田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理

田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理

 

文章摘要


【关 键 词】 强化学习LLM协作任务多轮优化智能体

强化学习在提升大型语言模型(LLM)能力的同时,自身也在不断进化。现实世界中的复杂任务通常需要一系列决策,而直接优化多轮目标(如成功率)是提升智能体性能的关键。然而,这种方法比模仿单轮动作更具挑战性。现有的单轮RLHF算法(如RAFT、DPO和PPO)在不同轮次间缺乏显式的credit分配,导致高方差和较差的样本复杂性。价值函数学习方法(如TD学习)则需要训练特定于任务的价值头,可能在有限微调数据下泛化不佳。因此,如何有效利用LLM的推理能力来训练通用、有能力和目标导向的智能体仍是一个开放问题。

Meta FAIR和加州大学伯克利分校的研究团队在这一领域取得了新突破。他们构建了一个新基准ColBench(Collaborative Agent Benchmark),并提出了一种易于实现且高效的RL算法SWEET-RL(RL with Step-WisE Evaluation from Training-Time Information)。ColBench旨在挑战智能体的推理和泛化能力,同时降低开销,支持快速研究原型设计。该基准包含两个任务:后端编程和前端设计。在后端编程任务中,智能体需与人类模拟器协作编写自定义Python函数,而在前端设计任务中,智能体需通过编写HTML代码片段设计网页。两个任务都通过多轮交互进行评估,最终奖励基于隐藏单元测试或CLIP嵌入的余弦相似度。

SWEET-RL是一种两阶段训练方法。第一阶段直接学习每轮次动作的优势函数,而非估计预期的未来回报。该团队采用偏好优化方法,根据轨迹的累积奖励标记选取和拒绝的轨迹,并使用Bradley-Terry目标进行微调。第二阶段通过每轮次的优势优化智能体,利用训练时间信息c来更好地判断策略采取的行动是否在正确轨道上。该方法采用不对称的actor-critic结构,策略仅基于交互历史,而优势函数则利用训练时间信息。实验表明,SWEET-RL在ColBench上的表现显著优于其他多轮RL算法。

在ColBench上的实验结果显示,多轮协作显著提高了LLM智能体的性能。例如,Llama-3.1-8B-Instruct的成功率从6.9%增加到22.4%。然而,即使对于GPT-4o和o1-mini等专有LLM,多轮协作仍具挑战性,成功率分别为40.4%和30.3%。这表明,为了让LLM优化与人类的协作,下游微调仍然是必要的。SWEET-RL通过显式训练每轮次的奖励模型,显著提升了后端编程和前端设计的成功率,分别提高了6%和5.4%。使用Llama-3.18B-Instruct的SWEET-RL模型在性能上与Llama-3.1-70B-Instruct相当,甚至可与GPT-4o和o1-mini等SOTA专有模型比肩。

SWEET-RL的成功表明,通过显式credit分配和利用训练时间信息,可以有效提升LLM智能体在多轮协作任务中的表现。这一研究为未来开发更通用、有能力和目标导向的智能体提供了新的方向。

原文和模型


【原文链接】 阅读原文 [ 2829字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...