标签:稳定训练

SimpleTIR:让大模型“边写代码边思考”不再崩溃

多轮 RL 训练大模型进行工具调用时,常出现训练崩溃问题,SimpleTIR 旨在解决这一难题。多轮训练崩溃的原因可归结为“分布偏移 + 低概率 token 的链式雪崩”。...