标签:训练策略

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

大规模强化学习在激发大型语言模型的复杂推理行为方面展现出显著效果,OpenAI 的 o1 系列和 DeepSeek-R1 的成功便是明证。然而,这些模型的核心训练方法在技...