标签:策略优化

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

DeepSeek-R1的成功依赖于一种名为GRPO(组相对策略优化)的强化学习算法。与PPO(近端策略优化)不同,GRPO直接根据组分数估计基线,从而消除了对critic模型...

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

在人工智能领域,大语言模型(LLM)的控制与指导是核心挑战之一。早期,人类反馈的强化学习方法(RLHF)被用来管理这些模型,取得了显著成效。然而,RLHF在训...