揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

AIGC动态22小时前发布 almosthuman2014
168 0 0
揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

 

文章摘要


【关 键 词】 大模型强化学习顿悟时刻GRPO预训练

DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」,这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现,DeepSeek-V3-Base 和 Qwen2.5 基础模型在未使用提示模板的情况下,依然表现出强大的推理能力,这表明预训练过程中可能存在潜在的偏差。此外,研究人员在群体相对策略优化(GRPO)中发现了一种优化偏差,这种偏差在训练过程中人为地增加了模型响应的长度,尤其是在错误输出的情况下。

为了解决这一问题,研究人员提出了 Dr. GRPO,一种无偏优化方法,能够在保持推理性能的同时提高 token 效率。通过这一方法,研究人员成功简化了 R1-Zero 方案,并在 AIME 2024 上使用 7B 基础模型实现了 43.3% 的准确率,达到了新的 SOTA 水平。这一成果展示了直接应用强化学习于基础模型的可能性,而无需依赖监督微调(SFT)作为初步步骤。

在基础模型的分析中,研究人员发现,所有测试的基础模型在强化学习之前都已具备数学解题能力,且几乎所有模型都表现出了「顿悟时刻」。特别是 Qwen2.5 模型在不使用模板时表现最佳,这促使研究人员进一步探讨了预训练偏差的存在。此外,研究人员还发现,模型与模板的不匹配会在强化学习重建之前破坏推理能力。

在强化学习的分析中,研究人员观察到,模型在整个训练过程中响应长度增加的趋势,这一趋势被广泛解释为模型正在发展「自我反思」等高级推理能力的标志。然而,研究发现,这一趋势可能并非完全由高级推理能力的发展所驱动,而是归因于 GRPO 目标函数固有的偏差。为了解决这一问题,研究人员对 GRPO 进行了两处修改:一是删除了长度归一化项,二是移除了标准差标准化项,从而实现了无偏优化。

最终,研究结果表明,通过无偏的 Dr. GRPO 算法,可以在保持推理性能的同时提高 token 效率,从而实现类似 R1-Zero 的训练。这一发现为未来的大语言模型训练提供了新的思路和优化方向。

原文和模型


【原文链接】 阅读原文 [ 5009字 | 21分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...