最强智能体Agent Q发布！Llama 3成功率飙升3倍，OpenAI神秘「草莓」遭截胡？

2,232 0 0

文章摘要

MultiOn初创公司近期发布了一款名为Agent Q的智能体框架，宣称其在真实预订任务中的成功率达到了95.4%，引起了业界的广泛关注。该公司CEO Div Garg在推特上频繁提及Agent Q，并使用草莓表情符号，引发了外界对Agent Q背后是否有OpenAI神秘Q*项目支持的猜测。尽管如此，Agent Q的推特账号吸引了众多行业大佬和关键意见领袖的关注。

Agent Q的技术含量相当高，具备规划、推理和自我修复功能。在仅一天的训练后，它将Llama 3的零样本性能提升了340%。在官方发布的演示视频中，Agent Q展示了其在预订餐厅、会议和机票等任务中执行多步规划、推理和决策的能力，以及与各种应用程序的交互能力。

然而，Agent Q尚未开放试用，感兴趣的用户需要在等待名单中注册以申请内测机会。MultiOn官网表示，Agent Q将于今年晚些时候向开发者和用户开放。

Agent Q的出现被视为AI智能体领域的一个重大里程碑。它结合了搜索、自我反思和强化学习，通过引入新的学习和推理框架，解决了之前LLM训练技术的局限性，使其能够实现自主网页导航。

在技术层面，Agent Q采用了引导式蒙特卡洛树搜索（MCTS）和AI自我反思与迭代微调方法，同时利用直接偏好优化（DPO）等RLHF算法，从成功和失败的轨迹中学习，提高多步推理任务中的泛化能力。关键组件包括基于MCTS的引导式搜索、AI自我批评和直接偏好优化。

在评估实验中，Agent Q在模拟网上商店任务和Open Table真实预订任务中表现出色。它将LLaMa-3的零样本成功率从18.6%提升至81.7%，并且在加入在线蒙特卡罗树搜索后，成功率进一步提高到95.4%。

尽管Agent Q在评估实验中展现出强大的能力，但仍存在许多讨论和改进的空间。例如，推理算法的设计、搜索策略的选择以及在线安全与交互等方面都需要进一步优化。未来，Agent Q可能需要引入额外的安全性批评模型以及human-in-the-loop的训练设置，以解决潜在的安全问题并扩大其实际可部署的任务场景。