RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会 「套公式」,却不会真推理

AIGC动态3小时前发布 aitechtalk
49 0 0
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会 「套公式」,却不会真推理

 

文章摘要


【关 键 词】 强化学习模型推理学术研究实验评估技术边界

清华和上交的最新研究对当前“纯强化学习(RL)有利于提升模型推理能力”的主流观点提出了质疑。通过一系列实验,研究者发现引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。这一发现挑战了业界对强化学习在提升大语言模型(LLM)推理能力方面的普遍认知。

研究团队在数学、编码和视觉推理三个领域进行了实验,评估了RLVR(Reinforcement Learning with Verifiable Rewards)对模型推理能力的影响。在数学任务中,尽管RL在低采样次数下提升了模型的准确性,但在高采样次数下却显著降低了问题的覆盖范围。基础模型在推理覆盖率方面表现更为稳健。在编码任务中,RLVR提升了单样本的准确性,但在高采样次数下,模型的覆盖率有所下降,而原始模型则表现出持续改进的潜力。这表明RLVR在探索多样性方面存在限制。在视觉推理任务中,RLVR的表现与数学和编码任务中的改进一致,但并未从根本上改变模型的问题解决策略。

研究还指出,传统衡量模型推理能力的指标存在缺陷。如果模型在少数几次尝试后未能解决难题,但其真实推理潜力可能被低估。为此,研究团队拓展了pass@k指标,以更严格地评估LLM的推理能力覆盖范围。然而,随着采样次数的增加,模型可能通过“黑客”行为偶然得出正确答案,这一问题在以往的研究中常被忽视。通过手动检查推理过程的正确性,研究团队更精准地评估了模型的推理能力极限。

研究进一步探讨了强化学习在大模型训练中的真正角色。强化学习更像是一种能力调控器,而非能力创造器。它能够提升模型在已有能力基础上的输出表现,但并未为模型带来新的推理路径或更复杂问题的解决能力。在高采样场景中,RL带来的“收敛性”可能牺牲了答案的多样性,从而错失解决更多难题的机会。因此,不能将模型的“能力”与“效率”混为一谈。能力指的是模型是否拥有解决某类问题的潜质与逻辑链条,而效率则是在给定能力范围内,模型能以多快、多稳、多省资源的方式得出答案。

这项研究的意义在于揭示了在过热预期背后,强化学习真正适用的边界。它提醒研究者和企业在制定大模型优化方案时,回归问题本质,用更清晰的标准衡量“能力的提升”究竟意味着什么。未来的技术路线可能需要更多关注基础模型在表示能力、知识组织与推理路径构建等方面的设计,而非过度依赖下游的策略微调。

原文和模型


【原文链接】 阅读原文 [ 1993字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...