AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025

AI-Agent1天前发布 aitechtalk
167 0 0
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025

 

文章摘要


【关 键 词】 智能体强化学习语言模型推理工程创新

Manus的出现将智能体推入AI格局的前列,尽管存在争议,但其工程创新仍被视为一种护城河。在AI智能体推理与决策研讨会(AIR 2025)上,多位学术界和工业界的研究人员围绕强化学习、推理决策、AI智能体展开讨论。新加坡南洋理工大学的安波教授揭示了从基于强化学习的智能体到由大型语言模型驱动的智能体的演变,分享了团队多项关于Agent的工作进展,其中Q*算法以多步骤推理作为审慎规划,在学习Q值模型的过程中,需要经历离线强化学习以交替更新Q值标签并拟合QVM、使用表现最佳的回滚轨迹的奖励、使用与更强大LLM一起完成的轨迹的奖励三个关键步骤。安波教授指出,推理和推断非常重要,尤其是在OpenAI-o1和DeepSeek R1发布之后,他们有一个纯粹基于自己研究的版本,这确实非常困难。

初创公司Weco Al的CTO Yuxiang阐述了在解空间中寻找智能的一些时间,介绍了由人工智能驱动的Agent—— AIDE,能够处理完整的机器和工程任务。如果将机器学习和工程视为一个代码优化问题,那么它就会将整个搜索或代码优化的过程形式化为在解空间中的树搜索。在这个被形式化的解空间中,AIDE是一个任何大语言模型都可以编写的代码空间。Yuxiang强调,机器学习可以在机器中完成,然后可以定义所有相关的评估指标,这与他们提出的机器学习工程Agent非常契合。

来自伦敦大学学院的宋研从DeepSeek切入,讨论了强化学习在大型语言模型推理中的作用,并指出DS又一个“Aha时刻”,即在强化学习阶段,大型语言模型学会了自我纠正,这可能是由于其基础模型已经具备自我纠正的能力。宋研指出,当Agent使用某些关键词时,它们会进行各种回溯、自我报告和复杂推理。

谷歌Deepmind研究员冯熙栋初步阐述了将强化学习的组成部分用自然语言描述出来的理念,将会把所有强化学习的概念重新定义为自然语言表示的内容,尝试将策略、值函数、贝尔曼方程、蒙特卡洛采样、时间差分学习以及策略改进操作符等,映射到它们的自然语言对应中。冯熙栋认为,在自然语言强化学习中,我们可以尝试用语言描述符来总结未来的轨迹,最终,还有贝尔曼方程。

AIR2025由伦敦大学学院汪军、Meta GenAI田渊栋等教授联合主办,致力于推动智能系统的发展,使其能够自主、适应性强且负责任地运行。本次会议特别鸣谢来自加州大学伯克利分校的博士后研究员顾尚定。会议的核心内容围绕智能体的驱动力变革、解空间中的智能寻找、通用型GUI Agent、DeepSeek强化学习的“Aha时刻”以及自然语言强化学习新范式展开。

原文和模型


【原文链接】 阅读原文 [ 8510字 | 35分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...