标签:响应长度
更长思维并不等于更强推理性能,强化学习可以很简洁
著名研究者和技术作家 Sebastian Raschka 解读了一篇来自 Wand AI 的强化学习研究,该研究分析了推理模型生成较长响应的原因。研究发现,推理模型生成较长响...
华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
近期研究围绕类 R1-Zero 的训练展开,聚焦于模型自我反思能力及响应长度变化的机制。研究表明,“顿悟时刻”并非如以往所认为出现在强化学习(RL)训练后,而是...