文章摘要
【关 键 词】 智能体框架、Agent Q、AI技术、多步规划、强化学习
MultiOn初创公司近期发布了一款名为Agent Q的智能体框架,宣称其在真实预订任务中的成功率达到了95.4%,引起了业界的广泛关注。该公司CEO Div Garg在推特上频繁提及Agent Q,并使用草莓表情符号,引发了外界对Agent Q背后是否有OpenAI神秘Q*项目支持的猜测。尽管如此,Agent Q的推特账号吸引了众多行业大佬和关键意见领袖的关注。
Agent Q的技术含量相当高,具备规划、推理和自我修复功能。在仅一天的训练后,它将Llama 3的零样本性能提升了340%。在官方发布的演示视频中,Agent Q展示了其在预订餐厅、会议和机票等任务中执行多步规划、推理和决策的能力,以及与各种应用程序的交互能力。
然而,Agent Q尚未开放试用,感兴趣的用户需要在等待名单中注册以申请内测机会。MultiOn官网表示,Agent Q将于今年晚些时候向开发者和用户开放。
Agent Q的出现被视为AI智能体领域的一个重大里程碑。它结合了搜索、自我反思和强化学习,通过引入新的学习和推理框架,解决了之前LLM训练技术的局限性,使其能够实现自主网页导航。
在技术层面,Agent Q采用了引导式蒙特卡洛树搜索(MCTS)和AI自我反思与迭代微调方法,同时利用直接偏好优化(DPO)等RLHF算法,从成功和失败的轨迹中学习,提高多步推理任务中的泛化能力。关键组件包括基于MCTS的引导式搜索、AI自我批评和直接偏好优化。
在评估实验中,Agent Q在模拟网上商店任务和Open Table真实预订任务中表现出色。它将LLaMa-3的零样本成功率从18.6%提升至81.7%,并且在加入在线蒙特卡罗树搜索后,成功率进一步提高到95.4%。
尽管Agent Q在评估实验中展现出强大的能力,但仍存在许多讨论和改进的空间。例如,推理算法的设计、搜索策略的选择以及在线安全与交互等方面都需要进一步优化。未来,Agent Q可能需要引入额外的安全性批评模型以及human-in-the-loop的训练设置,以解决潜在的安全问题并扩大其实际可部署的任务场景。
原文和模型
【原文链接】 阅读原文 [ 2143字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★