标签：响应长度

更长思维并不等于更强推理性能，强化学习可以很简洁

著名研究者和技术作家 Sebastian Raschka 解读了一篇来自 Wand AI 的强化学习研究，该研究分析了推理模型生成较长响应的原因。研究发现，推理模型生成较长响...

AIGC动态

5个月前

华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」

近期研究围绕类 R1-Zero 的训练展开，聚焦于模型自我反思能力及响应长度变化的机制。研究表明，“顿悟时刻”并非如以往所认为出现在强化学习（RL）训练后，而是...

AIGC动态

7个月前