标签：策略优化

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1的成功依赖于一种名为GRPO（组相对策略优化）的强化学习算法。与PPO（近端策略优化）不同，GRPO直接根据组分数估计基线，从而消除了对critic模型...

AIGC动态

6个月前

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

在人工智能领域，大语言模型（LLM）的控制与指导是核心挑战之一。早期，人类反馈的强化学习方法（RLHF）被用来管理这些模型，取得了显著成效。然而，RLHF在训...

AIGC动态

1年前 (2024)