更长思维并不等于更强推理性能,强化学习可以很简洁

文章摘要
【关 键 词】 强化学习、推理模型、响应长度、准确度、简洁性
著名研究者和技术作家 Sebastian Raschka 解读了一篇来自 Wand AI 的强化学习研究,该研究分析了推理模型生成较长响应的原因。研究发现,推理模型生成较长响应的行为源于强化学习的训练过程,而非更高的准确度需要更长的答案。当模型获得负奖励时,强化学习损失函数倾向于生成较长的响应,这解释了纯强化学习训练为何会导致出现顿悟时刻和更长思维链。具体而言,如果模型获得负奖励(即答案是错的),PPO 背后的数学原理会导致响应变长,这样平均每个 token 的损失就更小一些。因此,模型会间接地收到鼓励,从而使其响应更长,即使这些额外的 token 对解决问题没有实际帮助。
研究还表明,第二轮强化学习(仅使用一些有时可解的问题)可以缩短回答时间,同时保持甚至提高准确度。这对部署效率具有重大意义。研究团队通过数学分析,建立了响应正确性与 PPO 损失函数之间的联系,表明错误的答案往往会导致响应较长,而正确的答案则倾向于简洁。此外,即使在非常小的数据集上,强化学习的后训练阶段仍然有效,这一结果与文献中的当前趋势相悖,并且强化学习后训练在资源受限的场景下也是可行的。
研究揭示了强化学习存在的一个普遍问题:训练的目标只是为了获得奖励,而并非是解决问题。每个推理问题(例如,数学问题)都构成了一个马尔可夫决策过程(MDP),而不仅仅是一个静态样本。MDP 由状态空间、动作空间、转换函数、奖励函数、初始状态分布和折扣因子组成。在语言建模中,每个 token 位置的状态由直到该位置的所有 token 组成,动作空间对应于可能 token 的词汇表。强化学习的目标是最大化预期回报,预期回报定义为根据折扣因子折扣后的未来奖励之和。
研究团队提出了一种两阶段的强化学习训练方法:在第一阶段,用高难度问题训练模型,以增强模型解决问题的能力,由于 PPO 主要会遇到负奖励,从而促使模型产生更长的响应。在第二阶段,使用偶尔可解的问题继续训练,以在保持甚至提高准确度的同时提升简洁性。实验结果表明,新提出的两阶段强化学习训练方法会让响应长度显著下降,同时准确度会保持稳定。此外,进一步的强化学习后训练也能提升模型的稳健性和性能,尤其是在有限数量的样本上进行训练时,准确度提升显著。
研究还发现,简洁的推理往往与更高的准确度密切相关,并且即使在非常小的数据集上,强化学习的后训练阶段仍然有效。这表明,强化学习后训练在资源受限的场景下也是可行的,并且能够显著提升模型的准确度和稳健性。
原文和模型
【原文链接】 阅读原文 [ 3449字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★