标签：计算成本

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1的成功依赖于一种名为GRPO（组相对策略优化）的强化学习算法。与PPO（近端策略优化）不同，GRPO直接根据组分数估计基线，从而消除了对critic模型...

AIGC动态

6个月前

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

OpenAI最近推出了新的推理系列模型o3和o3-mini，这是自o1以来的第12次更新。这些模型基于OpenAI提出的推理Scaling Law，为实现人工通用智能（AGI）带来了新希...

AIGC动态

9个月前