Agent Q：具备自我学习、评估的智能体

2,596 0 0

文章摘要

在人工智能领域，尤其是大语言模型（LLM）的发展和应用落地方面，一个重要的进步是AGI平台MultiOn和斯坦福研究人员联合开发的智能体Agent Q。Agent Q在自然语言处理任务中展现出了显著的泛化能力，特别是在需要搜索、比较和选择的交互式、多步骤环境中。

Agent Q的核心是蒙特卡洛树搜索（MCTS）算法，这是一种启发式搜索算法，广泛应用于游戏和决策领域。在Agent Q中，MCTS用于在网页环境中导航，通过模拟可能的未来路径来评估和选择最优的行动策略。该算法涉及选择、扩展、模拟和反向传播四个阶段，通过迭代优化搜索树来提高策略性能。

然而，MCTS算法在复杂环境中面临的一个挑战是环境奖励的稀疏性，这可能导致智能体在长期任务中遇到困难。为了解决这个问题，Agent Q引入了自我批评机制，这是一种自我评估过程，智能体在每个决策节点上使用自身的评估来提供中间奖励。这种机制不仅帮助智能体进行自我监督，而且通过提供即时反馈指导智能体学习正确的规划路径。

Agent Q的自我批评机制依赖于一个反馈语言模型，该模型对智能体在每个节点上可能采取的动作进行评分，形成一个加权分数。这个分数结合了MCTS的平均Q值和反馈语言模型生成的分数，用于构建直接偏好优化（DPO）算法中的对比对。DPO算法是一种离线强化学习算法，通过比较不同动作的偏好来优化策略，使智能体能够从成功和不成功的轨迹中学习。

Agent Q框架的另一个特色模块是迭代式微调，这是实现自我学习的关键。与传统的监督学习不同，迭代式微调允许智能体在没有明确标签的环境下进行学习，通过自我生成的数据和偏好对来指导优化过程。

在网络交互中，智能体的状态可能部分不可观察，因此构建一个有效的状态表示对于智能体的性能至关重要。Agent Q采用了一种紧凑的历史表示方法，将智能体迄今为止生成的动作和当前浏览器状态结合起来，形成了一个高效的内存组件。

为了测试Agent Q的性能，研究人员在模拟电子商务平台WebShop进行了综合测试。实验结果显示，Agent Q的表现显著优于行为克隆和强化学习微调的基线模型，在某些任务中甚至超过了平均人类表现。特别是在真实世界的预订场景中，Agent Q将Llama-3 70B模型的零样本成功率从18.6%提升至81.7%，相对提升了340%，并在配备在线搜索功能后，成功率进一步提高到了95.4%。

总的来说，Agent Q的开发展示了在复杂多步骤推理任务中，通过自我学习和评估机制，智能体能够显著提高其泛化能力和性能。这一进步为AIGC领域的专业社区提供了宝贵的参考和启示，有助于推动大语言模型在更广泛场景中的应用和发展。