标签:基准性能

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

阶跃星辰与清华大学联合发布的Open Reasoner Zero(ORZ)模型在强化学习训练方法上取得突破性进展。该研究采用极简主义方法,仅使用带有GAE的原版PPO算法和基...