标签：基准性能

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

阶跃星辰与清华大学联合发布的Open Reasoner Zero（ORZ）模型在强化学习训练方法上取得突破性进展。该研究采用极简主义方法，仅使用带有GAE的原版PPO算法和基...

AIGC动态

7个月前