10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现

AIGC动态10小时前发布 AIera
70 0 0
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现

 

文章摘要


【关 键 词】 强化学习模型微调成本优化算法简化推理能力

荷兰开发者Raz采用轻量级强化学习算法Reinforce-Lite,以低于10美元的成本在3B参数规模的模型上复现了DeepSeek的”顿悟时刻”。该方法通过简化传统强化学习的复杂组件,仅保留单一策略网络,实现了端到端的低成本训练。研究基于GSM8K数学推理数据集,验证了算法在有限计算资源下的有效性,并揭示了模型自主推理能力的提升机制。

传统强化学习框架通常涉及策略模型、旧策略模型、参考模型、奖励模型和评判模型等多个组件,导致计算成本与训练复杂度居高不下。Reinforce-Lite的核心创新在于移除KL散度计算、替代目标比率和独立价值网络,转而采用分组相对奖励归一化技术。该算法将每个问题的10个回应作为一组,通过比较组内奖励均值和标准差计算优势值,有效降低了梯度更新的方差。实验显示,在RTX A6000显卡上训练12小时后,Meta Llama 3.2模型的GSM8K准确率提升2%,Phi 3.5 Instruct模型提升0.6%。

对模型推理轨迹的分析揭示了显著的能力提升:经过微调的模型展现出逻辑推理、自我纠错、试错策略和表格化计算等复杂行为。例如在处理涉及人数动态变化的数学问题时,模型能够识别负值结果的逻辑矛盾,回溯计算步骤并修正错误方程。这种自主性表明,算法通过奖励机制成功激发了模型内在的推理潜力。

技术实现层面,Reinforce-Lite采用蒙特卡洛式奖励机制,仅根据最终答案正确性给予+1或-1的二元反馈。研究特别设计了标签提取机制,通过正则表达式匹配数值结果进行自动评分。梯度裁剪替代传统KL约束的方法被证明能有效维持策略稳定性,同时避免了参考模型的计算开销。值得注意的是,模型在训练中倾向于生成更长推理序列,但受限于48GB显存,超过1024个token时会出现内存溢出问题。

微软亚研院的平行研究发现,大型语言模型的”顿悟时刻”可能并非突发性能力涌现,而是渐进式优化的结果。在7B模型实验中,通过系统性训练设计同样实现了高级推理技能,但性能提升曲线呈现平滑特征。这为理解模型能力演化提供了新视角,暗示当前RL优化方法可能更依赖算法设计而非模型内在的突变机制。两项研究共同指向一个结论:通过精简算法架构与优化训练流程,小规模模型同样能释放出超越常规指令微调的推理潜力。

原文和模型


【原文链接】 阅读原文 [ 5232字 | 21分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...