一直爆料OpenAI「草莓」的账号,竟然是个智能体?斯坦福系创企「炒作」AgentQ
文章摘要
【关 键 词】 AI智能体、蒙特卡洛树搜索、自我批评、直接偏好优化、技术潜力
最近,AI智能体初创公司MultiOn发布了一款名为Agent Q的全新智能体,引起了广泛关注。Agent Q的训练方法结合了蒙特卡洛树搜索(MCTS)和自我批评,并通过直接偏好优化(DPO)算法学习人类反馈。作为一款具有规划和自我修复功能的AI智能体,Agent Q在真实场景任务的评估中表现出色,成功率达到了95.4%。
Agent Q的主要组件包括:
1. 使用MCTS进行引导式搜索,通过探索不同操作和网页自主生成数据,平衡探索与利用。
2. AI自我批评,在每个步骤中提供反馈,完善决策过程。
3. 直接偏好优化(DPO),通过构建偏好对微调模型,提高复杂环境中的成功率。
在技术细节上,Agent Q的研究者探索了如何通过MCTS赋予智能体额外的搜索能力。与传统棋盘游戏不同,Agent Q在网页智能体执行中使用开放格式且可变的操作空间。研究者将基础模型用作操作建议分布,并在每个节点上采样可能的操作。通过多次迭代查询反馈模型,对所有操作进行完整排序。
在评估结果方面,研究者选择了在OpenTable官网上预订餐厅的任务来测试Agent Q在真实世界的表现。Agent Q将LLaMa-3模型的零样本成功率从18.6%大幅提高到了81.7%,仅在单日自主数据收集后便实现了340%的成功率提升。引入在线搜索功能后,成功率更是攀升至95.4%。
尽管Agent Q在技术上取得了显著成果,但部分网友对其炒作行为表示质疑。MultiOn的创始人Div Garg曾认领Agent Q就是之前备受关注的”草莓哥”账号,但随后又删除了相关帖子。不过,Agent Q的研究成果已经以论文形式发布,并将在今年晚些时候向开发人员和普通用户开放。
总的来说,Agent Q作为一款具有先进训练方法和高成功率的AI智能体,在技术层面展现出了强大的潜力。然而,其背后的营销操作也引发了一定的争议。未来,随着技术的进一步发展和应用,Agent Q有望在更多复杂场景中发挥重要作用。
原文和模型
【原文链接】 阅读原文 [ 2196字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★