一直爆料OpenAI「草莓」的账号，竟然是个智能体？斯坦福系创企「炒作」AgentQ

AI-Agent1年前 (2024)发布 almosthuman2014

2,239 0 0

一直爆料OpenAI「草莓」的账号，竟然是个智能体？斯坦福系创企「炒作」AgentQ

文章摘要

【关键词】 AI智能体、蒙特卡洛树搜索、自我批评、直接偏好优化、技术潜力

最近，AI智能体初创公司MultiOn发布了一款名为Agent Q的全新智能体，引起了广泛关注。Agent Q的训练方法结合了蒙特卡洛树搜索（MCTS）和自我批评，并通过直接偏好优化（DPO）算法学习人类反馈。作为一款具有规划和自我修复功能的AI智能体，Agent Q在真实场景任务的评估中表现出色，成功率达到了95.4%。

Agent Q的主要组件包括：
1. 使用MCTS进行引导式搜索，通过探索不同操作和网页自主生成数据，平衡探索与利用。
2. AI自我批评，在每个步骤中提供反馈，完善决策过程。
3. 直接偏好优化（DPO），通过构建偏好对微调模型，提高复杂环境中的成功率。

在技术细节上，Agent Q的研究者探索了如何通过MCTS赋予智能体额外的搜索能力。与传统棋盘游戏不同，Agent Q在网页智能体执行中使用开放格式且可变的操作空间。研究者将基础模型用作操作建议分布，并在每个节点上采样可能的操作。通过多次迭代查询反馈模型，对所有操作进行完整排序。

在评估结果方面，研究者选择了在OpenTable官网上预订餐厅的任务来测试Agent Q在真实世界的表现。Agent Q将LLaMa-3模型的零样本成功率从18.6%大幅提高到了81.7%，仅在单日自主数据收集后便实现了340%的成功率提升。引入在线搜索功能后，成功率更是攀升至95.4%。

尽管Agent Q在技术上取得了显著成果，但部分网友对其炒作行为表示质疑。MultiOn的创始人Div Garg曾认领Agent Q就是之前备受关注的”草莓哥”账号，但随后又删除了相关帖子。不过，Agent Q的研究成果已经以论文形式发布，并将在今年晚些时候向开发人员和普通用户开放。

总的来说，Agent Q作为一款具有先进训练方法和高成功率的AI智能体，在技术层面展现出了强大的潜力。然而，其背后的营销操作也引发了一定的争议。未来，随着技术的进一步发展和应用，Agent Q有望在更多复杂场景中发挥重要作用。