标签：剪枝技术

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1的成功依赖于一种名为GRPO（组相对策略优化）的强化学习算法。与PPO（近端策略优化）不同，GRPO直接根据组分数估计基线，从而消除了对critic模型...

AIGC动态

6个月前