快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

AIGC动态7小时前发布 ai-front
83 0 0
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

 

文章摘要


【关 键 词】 Klear模型GPPO算法推理测试训练流程开源贡献

在大语言模型竞争中,数学与代码推理能力是关键“分水岭”。许多中小规模开源推理模型在高难测试中与闭源 SOTA 存在差距,而快手 Klear 语言大模型团队推出的 Klear-Reasoner 模型带来了新突破。

Klear-Reasoner 成绩斐然:该模型基于 Qwen3 – 8B – Base 打造,在数学与代码的多个权威基准测试中达到同规模模型的 SOTA 水平。它在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等测试中全面超越同规模开源模型,在 AIME2024 取得 90.5%、AIME2025 取得 83.2%的成绩,登顶 8B 模型榜首。

核心创新 GPPO 算法:其核心技术是 Klear 团队提出的 GPPO 算法。传统策略优化方法中的 clip 机制虽能控制训练稳定性,但存在高熵 token 被裁剪和负样本延迟收敛的问题,限制了模型探索能力和收敛速度。GPPO 不丢弃任何梯度,通过 stop gradient 操作将 clip 操作与梯度反向传播解耦。它让被 clip 的 token 依然参与反向传播,保留探索能力并加快错误修正。在与 DAPO、CISPO 等方法对比中,GPPO 在数学和代码任务上表现出优势。

训练流程关键洞察:Klear 团队还对训练流程多环节深入实验分析。SFT 阶段,数据质量优先,高质量数据源样本训练效率和效果更好;高难样本容错能促进学习,保留部分带瑕疵推理路径可提升模型表现。RL 阶段,软奖励优于硬奖励,能缓解奖励稀疏问题,让学习更稳定高效;代码数据需进行测试用例过滤,过滤后可显著提升 RL 训练性能。

未来展望:Klear-Reasoner 不仅提供了性能出色的开源权重,还为社区贡献了可复现、可推广的推理模型训练路线。GPPO 算法让推理模型在稳定性与探索力间找到新平衡,对未来数学、代码及其他 RLVR 任务有重要参考价值。

原文和模型


【原文链接】 阅读原文 [ 2446字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...