
文章摘要
【关 键 词】 强化学习、推理能力、采样效率、基础模型、蒸馏
近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技术,其通过简单的奖励信号优化模型,减少了对大量人工标注数据的依赖。然而,清华大学和上海交通大学的一项研究对这一观点提出了挑战,揭示了RLVR可能并未真正赋予模型全新的推理能力,而是主要提高了采样效率。
研究团队通过pass@k指标进行实验,发现当k值较小时,RLVR训练模型的表现优于基础模型,但随着k值增大,基础模型逐渐超越RLVR模型。这表明,基础模型通过多样化采样能够生成原本被认为只有RLVR模型才能解决的正确答案。此外,RLVR训练虽然提升了采样效率,但也缩小了模型的探索范围,导致在大k值下可解决问题的覆盖范围变小。这一发现挑战了RLVR能够激发模型全新推理能力的普遍看法。
研究还表明,不同RL算法(如PPO、GRPO、Reinforce++)在性能上并无本质区别,均未达到最优效果。相比之下,蒸馏方法能够为模型引入新知识,展现出超越基础模型的推理能力范围。实验进一步验证了基础模型已经包含了RLVR模型生成的所有推理路径,RLVR只是提高了这些路径的采样概率,而非创造了新的推理模式。
在数学、编程和视觉推理等多个领域的实验中,研究团队发现基础模型在可解决问题的覆盖范围上更具优势。例如,在编程任务中,当k值较小时,RLVR训练的模型单样本性能更好,但随着k值增大,基础模型的表现逐渐超越RLVR模型。视觉推理实验也呈现出类似趋势,RLVR并未让模型获得超越基础模型的推理能力。
困惑度分析进一步支持了这些结论,RLVR模型的回答困惑度分布与基础模型生成回答的低困惑度部分高度重合,表明RLVR模型的推理路径早已存在于基础模型中。研究团队总结认为,RLVR并未带来新的推理能力,而是通过提升采样效率,缩小了模型的推理边界。相比之下,蒸馏方法通过学习教师模型的推理模式,突破了基础模型的推理能力范围。
研究还探讨了不同RL算法的效果,发现它们主要提升了采样效率,而非扩展推理能力。随着RL训练的进行,训练集上的pass@1稳步提升,但延长训练可能收益有限。这些发现为大语言模型的训练和优化提供了新的视角,强调了基础模型本身的重要性,以及RLVR和蒸馏方法在提升模型性能方面的不同作用。
总的来说,这项研究揭示了RLVR在提升模型推理能力方面的局限性,强调了基础模型本身在解决复杂问题中的潜力。研究结果为未来大语言模型的训练和优化提供了重要的参考,尤其是在如何平衡采样效率与推理能力范围方面。
原文和模型
【原文链接】 阅读原文 [ 3667字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★