汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力

AI-Agent11小时前发布 aitechtalk
73 0 0
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力

 

文章摘要


【关 键 词】 强化学习智能本质大模型奖励假设研究建议

在 RL China 2025 开幕式的思想对话中,图灵奖得主、“强化学习之父”Richard Sutton 与伦敦大学学院汪军教授共探智能的本质与未来方向。Richard 认为大模型缺乏目标和奖励,并非理解智能的途径,强化学习(RL)才是驱动智能理解的关键。

Richard 指出,当前人工智能行业的快速扩张分散了对基础科学的关注,而大模型(LLM)虽有用,但运行中无学习能力,无目标和奖励,只是模仿人类。他强调,所有目标都可解读为“奖励”,一种单一的标量数值,智能就是与世界交互以达成目标,需用某种方式定义目标。RL 的核心在于从经验中学习,既直接又间接学习,形成世界模型以规划行为改进。而且,梯度下降在智能基本原则中至关重要,但不能忽视其他原则,如时序差分学习和搜索,应将搜索与梯度下降结合。

对于年轻研究人员,Richard 建议着眼长远目标,关注理解思维和智能如何运作这一重大目标,科学界应关注未知问题。他认为 LLM 对科学造成干扰,分散了对理解智能问题的注意力。

在经验方面,Richard 认为经验是在世界中生存时接收到的真实数据,包括观察、行动和奖励,是智能的核心。样本复杂度是需解决的问题,研究核心是从经验中高效学习。他提出“奖励假设”,认为目标与意图可理解为对“奖励”累积和期望值的最大化。在打造工程化系统时,设计者需明确目标并转化为奖励信号传递给 agent,且应为真正想要的结果设置奖励。

关于强化学习的突破路径,Richard 介绍了“阿尔伯塔人工智能研究计划”,目标是打造具备推理、规划与学习能力的完整 RL agent。在通用智能体的认知转向方面,他不认同“task”概念,认为应追求状态之间的泛化以打造通用 agent。元学习可通过调整模型权重的步长实现,IDBD 算法可用于设置步长。他还强调梯度下降虽重要,但应结合搜索,持续反向传播可在训练过程中持续注入随机权重。最后,他分享了发明时序差分学习的相关情况。

原文和模型


【原文链接】 阅读原文 [ 9199字 | 37分钟 ]
【原文作者】 AI科技评论
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...