田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

AI-Agent6个月前发布 almosthuman2014

1,296 0 0

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

文章摘要

强化学习在提升大型语言模型（LLM）能力的同时，自身也在不断进化。现实世界中的复杂任务通常需要一系列决策，而直接优化多轮目标（如成功率）是提升智能体性能的关键。然而，这种方法比模仿单轮动作更具挑战性。现有的单轮RLHF算法（如RAFT、DPO和PPO）在不同轮次间缺乏显式的credit分配，导致高方差和较差的样本复杂性。价值函数学习方法（如TD学习）则需要训练特定于任务的价值头，可能在有限微调数据下泛化不佳。因此，如何有效利用LLM的推理能力来训练通用、有能力和目标导向的智能体仍是一个开放问题。

Meta FAIR和加州大学伯克利分校的研究团队在这一领域取得了新突破。他们构建了一个新基准ColBench（Collaborative Agent Benchmark），并提出了一种易于实现且高效的RL算法SWEET-RL（RL with Step-WisE Evaluation from Training-Time Information）。ColBench旨在挑战智能体的推理和泛化能力，同时降低开销，支持快速研究原型设计。该基准包含两个任务：后端编程和前端设计。在后端编程任务中，智能体需与人类模拟器协作编写自定义Python函数，而在前端设计任务中，智能体需通过编写HTML代码片段设计网页。两个任务都通过多轮交互进行评估，最终奖励基于隐藏单元测试或CLIP嵌入的余弦相似度。

SWEET-RL是一种两阶段训练方法。第一阶段直接学习每轮次动作的优势函数，而非估计预期的未来回报。该团队采用偏好优化方法，根据轨迹的累积奖励标记选取和拒绝的轨迹，并使用Bradley-Terry目标进行微调。第二阶段通过每轮次的优势优化智能体，利用训练时间信息c来更好地判断策略采取的行动是否在正确轨道上。该方法采用不对称的actor-critic结构，策略仅基于交互历史，而优势函数则利用训练时间信息。实验表明，SWEET-RL在ColBench上的表现显著优于其他多轮RL算法。

在ColBench上的实验结果显示，多轮协作显著提高了LLM智能体的性能。例如，Llama-3.1-8B-Instruct的成功率从6.9%增加到22.4%。然而，即使对于GPT-4o和o1-mini等专有LLM，多轮协作仍具挑战性，成功率分别为40.4%和30.3%。这表明，为了让LLM优化与人类的协作，下游微调仍然是必要的。SWEET-RL通过显式训练每轮次的奖励模型，显著提升了后端编程和前端设计的成功率，分别提高了6%和5.4%。使用Llama-3.18B-Instruct的SWEET-RL模型在性能上与Llama-3.1-70B-Instruct相当，甚至可与GPT-4o和o1-mini等SOTA专有模型比肩。

SWEET-RL的成功表明，通过显式credit分配和利用训练时间信息，可以有效提升LLM智能体在多轮协作任务中的表现。这一研究为未来开发更通用、有能力和目标导向的智能体提供了新的方向。