在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

 

文章摘要


【关 键 词】 强化学习策略优化计算成本训练效率剪枝技术

DeepSeek-R1的成功依赖于一种名为GRPO(组相对策略优化)的强化学习算法。与PPO(近端策略优化)不同,GRPO直接根据组分数估计基线,从而消除了对critic模型的需求。然而,这种方法需要为每个问题采样一组完成结果,导致训练过程的计算成本较高。GRPO通过基于规则的奖励函数计算每个完成结果的奖励,并计算其相对优势。为了保证训练的稳定性,GRPO还计算策略模型、参考模型和旧策略模型的预测概率之比,作为策略目标函数的一部分,这进一步增加了训练开销。GRPO的巨大训练开销限制了其训练效率和可扩展性,而在实践中,提高训练效率至关重要。

厦门大学纪荣嵘团队的研究发现,每个完成结果的贡献与其相对优势有关,这意味着并非所有完成结果对策略模型训练的贡献都相等。基于这一见解,他们提出了一种加速版的GRPO,称为CPPO(完成剪枝策略优化)。CPPO通过对完成结果进行剪枝来加速训练过程。具体来说,策略模型首先为每个问题采样一组完成结果,然后通过奖励函数计算每个完成结果的相对优势。CPPO会修剪掉绝对优势值较低的完成结果,仅保留绝对优势较高的完成结果来计算损失,从而大大减少训练所需的完成结果数量,加快训练过程。

实验证明,CPPO在保证准确度的基础上,显著提高了训练速度。在使用Qwen-2.5系列模型时,CPPO在GSM8K基准上的速度比GRPO快8.32倍,在MATH基准上快3.51倍。此外,CPPO还引入了一种动态完成结果分配策略,以充分利用GPU资源并进一步提高训练效率。该策略通过用新问题的完成结果填充每个设备,确保GPU资源得到充分利用,从而避免了资源浪费。

在多GPU训练场景中,CPPO通过只保留每个问题具有最大绝对优势的k个完成结果,缓解了“木桶效应”,进一步提高了训练效率。CPPO的关键区别在于它不会将所有完成结果用于策略模型、参考模型和旧策略模型的前向计算,而是通过仅保留具有高绝对优势的完成结果进行梯度更新,显著降低了前向传递期间的计算开销。

在AMC2023和AIME2024基准上的评估表明,尽管CPPO仅在高绝对优势完成结果上进行训练,但它仍保留了模型在分布外任务上的泛化能力。CPPO不仅在增强推理能力方面匹敌甚至超越了GRPO,而且还显著减少了训练时间,使其成为一种更有效的替代方案。总体而言,CPPO在提高收敛速度的同时保证了GRPO的训练稳定性,显示出稳健而稳定的训练特性。

原文和模型


【原文链接】 阅读原文 [ 2381字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...