
文章摘要
【关 键 词】 RLIF、Intuitor、长链推理、数学推理、模型优化
复刻DeepSeek – R1的长思维链推理使大模型强化学习新范式RLIF成为热门话题。UC Berkeley团队提出的新方法Intuitor,仅通过优化模型自己的信心,就能让大模型学会复杂推理,这种方法无需外部奖励信号或标注数据,仅使用模型自身置信程度作为内在奖励信号。
长期以来,训练大模型主要依赖大量人工标注或可验证的标准答案,前者成本高且易引入偏见,后者局限于有明确答案的领域。针对能否让模型摆脱外部监督的问题,UC Berkeley团队提出Intuitor方法,计算模型预测分布与均匀分布之间的KL散度作为“自信程度”。通过优化这个内在信号,鼓励模型生成更有把握的回答,也能促使生成更结构化的推理过程。在实验中,小模型也涌现出与DeepSeek – R1类似的长思维链推理行为。同时,这种内在奖励信号从机制上降低了“奖励黑客”的风险,使用在线学习可避免模型作弊问题。
团队对INTUITOR框架提升大模型数学推理能力进行实证研究。选取Qwen2.5 – 1.5B/3B作为基础模型,用自我确定度作为唯一奖励信号,与两个基线方法对比在MATH数据集预训练。实验表明,INTUITOR微调后,模型性能显著提升,如Qwen2.5 – 1.5B无效输出大幅减少、响应长度增加;在结构化推理能力方面,更早学习速度更快;在多任务泛化上表现优秀,如代码生成任务最终性能比GRPO高8%,相对提升65%。研究人员还发现INTUITOR模型生成代码前添加自然语言推理可能是其表现出色的原因之一,模型演进经历学会生成代码、代码前推理、细化生成带详细推理有效代码三个阶段。此外,INTUITOR对正确答案的自我确定度分数明显更高,区分度优于GRPO。
本项研究来自UC Berkeley的Sergey Levine、宋晓东团队,作者包括Xuandong Zhao等五人。Xuandong Zhao发表过诸多论文,此前还和Zhewei Kang合作发表相关先验尝试论文。目前受计算资源限制,研究在较小无监督语料库上完成,未来可在更大规模基础模型和多样化数据集上继续探索INTUITOR的优势。
原文和模型
【原文链接】 阅读原文 [ 1567字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 doubao-1.5-pro-32k
【摘要评分】 ★★☆☆☆