标签:算法简化

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现

荷兰开发者Raz采用轻量级强化学习算法Reinforce-Lite,以低于10美元的成本在3B参数规模的模型上复现了DeepSeek的'顿悟时刻'。该方法通过简化传统强化学习的复...