业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

 

文章摘要


【关 键 词】 强化学习语言模型跨领域训练策略开源模型

大规模强化学习在激发大型语言模型的复杂推理行为方面展现出显著效果,OpenAI 的 o1 系列和 DeepSeek-R1 的成功便是明证。然而,这些模型的核心训练方法在技术报告中仍鲜有披露,且当前研究主要局限于数学推理领域,跨领域泛化的挑战尚未得到充分探索。GRPO 训练过程中存在的性能瓶颈、样本利用效率低下等问题,进一步增加了强化学习方法扩展的复杂性。

针对这些挑战,快手 Kwaipilot 团队提出了一种创新的两阶段历史重采样策略优化(SRPO)框架,旨在系统性解决训练难题。SRPO 通过两阶段训练范式,首先专注于数学数据以激发模型的推理能力,随后引入代码数据以强化程序性思维和工具调用能力。这一方法在 AIME24 和 LiveCodeBench 基准测试中取得了优异成绩,超越了 DeepSeek-R1-Zero-32B 的表现,且仅需后者十分之一的训练步数。

SRPO 的成功关键在于其两阶段训练范式和历史重采样策略。第一阶段通过数学数据培养模型的反思性停顿、回溯行为和逐步分解能力;第二阶段则利用这些推理基础提升代码能力。历史重采样策略通过过滤过于简单的样本,保留信息样本,确保梯度更新始终有效,显著提高了训练效率。

在训练过程中,SRPO 模型展现出多种反思模式,如 recheck、hesitation 和 exploration,表明模型具备了自我验证能力。随着训练的进行,模型的反思和回溯行为逐渐增加,形成了逐步推理、数值替换、逐一验证和自我优化等响应模式。特别值得注意的是,模型在解决数学问题时,学会了自发使用程序代码进行验证,体现了其综合运用多种代码思维进行问题求解的能力。

SRPO 的成功不仅在于其性能的提升,更在于其为跨领域强化学习训练提供了新的思路。通过两阶段训练和历史重采样策略,SRPO 有效解决了数学与代码跨领域优化冲突、组奖励导致的训练效率下降以及过早性能饱和等问题。未来,团队将继续探索更大规模的数据与模型、更加高效的强化学习算法,以及其在更广泛推理场景中的应用潜力。

总的来说,SRPO 框架为构建更强大的推理模型提供了重要参考,其创新性的训练策略和高效的数据整理流程,为跨领域强化学习的发展开辟了新的方向。

原文和模型


【原文链接】 阅读原文 [ 3082字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...