标签:PPO优化

出人意料!DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了

DeepSeek-R1模型的核心强化学习算法GRPO通过分组分数替代价值模型,显著降低了训练资源消耗。然而,阶跃星辰与清华大学的最新研究表明,采用带GAE(λ=1,γ=1...