微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读

文章摘要
【关 键 词】 人工智能、强化学习、监督学习、无监督学习、大模型
微软副总裁 Nando de Freitas 在 X 平台上发布了一系列关于人工智能教育的帖子,内容涵盖大语言模型(LLM)的强化学习、扩散模型、流匹配等技术。他通过深入讲解这些技术的原理和发展趋势,为读者提供了丰富的学习资源。尽管这些内容较为硬核,导致部分读者流失,但对于从事大模型和强化学习研究的人员来说,这些帖子具有极高的参考价值。
在监督学习方面,监督学习通过最大似然估计将世界状态映射到行动,依赖于高质量的专家数据。这种学习方式的核心是模仿,学生通过复制教师的行为来学习。然而,监督学习的局限性在于,学生只能机械地模仿,缺乏自主判断能力。尽管如此,监督学习在大语言模型预训练、扩散模型和自编码器等领域发挥了重要作用,其本质是通过预测下一个 bit 来实现自由能的最小化,从而在无序的世界中创造有序。这一原理与生命运作的基本规律相似,正如薛定谔和保罗・纳斯的著作《生命是什么》中所阐述的那样。
强化学习(RL)则侧重于选择性模仿,能够从大量次优数据中学习并优化特定任务的性能。RL 的核心在于自我提高,智能体通过生成数据并从自身经验中学习,逐步提升性能。与监督学习不同,RL 允许智能体识别哪些数据对学习有用,并忽略无关信息。这种学习方式类似于人类选择性地模仿父母的行为,而非全盘接受。RL 的另一个重要特点是,智能体可以通过奖励信号构建选择机制,从而从自身数据中学习并自我提升。此外,RL 还涉及介入性因果知识,智能体通过采取行动来获得对环境的理解。
在分布式强化学习系统中,智能体通过与环境的交互来提升性能。现代分布式强化学习系统通常分为 Actors 和 Learners 两部分。Actors 负责生成动作并与环境交互,Learners 则从记忆中采样数据并更新策略网络。这种系统设计需要精确的工程测量和消融,以确保高效运行。在语言模型中,Actors 可以是聊天机器人,环境则是用户。每次交互的数据被发送到重放内存中进行学习,Learners 需要更多的存储和计算资源来跟踪梯度和大规模统计数据。
离线强化学习(Off-line RL)在某些场景中具有不可替代的价值,特别是在高成本或高风险的环境中。离线强化学习的优势在于继承了生成-选择机制,但由于缺乏实时环境交互,也存在一定局限性。研究者提出了多种解决方案来修正陈旧数据导致的偏差,如重要性加权、近端策略优化(PPO)和 DeepSeek-R1 的加权方案。这些方法在离线强化学习中发挥了重要作用,特别是在机器人物理训练和自动驾驶事故数据学习等领域。
在单步强化学习中,智能体通过最大化期望回报来优化策略。这种方法被称为策略梯度或 on-policy RL,适用于生成样本成本较低的场景。然而,对于成本高昂的游戏模拟引擎,必须引入缓冲区和回放记忆来缓存数据,并使用 off-policy 方法。策略梯度算法通过调整大语言模型的策略来最大化期望回报,其核心在于沿着梯度方向更新参数。此外,研究者还使用了一些技巧来提高性能,如基线减法和 KL 散度。
Freitas 的系列帖子为读者提供了关于强化学习的深入见解,特别是单步和多步强化学习的应用与挑战。他计划从单步强化学习拓展到多步强化学习,进一步探索这一领域的复杂性。感兴趣的读者可以持续关注他的动态,以获取更多关于人工智能和强化学习的前沿知识。
原文和模型
【原文链接】 阅读原文 [ 5122字 | 21分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★