标签：算法简化

10美元成功复现DeepSeek顿悟时刻，3B模型爆发超强推理！微软论文反驳涌现

荷兰开发者Raz采用轻量级强化学习算法Reinforce-Lite，以低于10美元的成本在3B参数规模的模型上复现了DeepSeek的'顿悟时刻'。该方法通过简化传统强化学习的复...

AIGC动态

10个月前