标签:顿悟时刻

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

近期研究围绕类 R1-Zero 的训练展开,聚焦于模型自我反思能力及响应长度变化的机制。研究表明,“顿悟时刻”并非如以往所认为出现在强化学习(RL)训练后,而是...