SimpleTIR:让大模型“边写代码边思考”不再崩溃

AIGC动态11小时前发布 aitechtalk
57 0 0
SimpleTIR:让大模型“边写代码边思考”不再崩溃

 

文章摘要


【关 键 词】 多轮训练训练崩溃SimpleTIR无效轮过滤稳定训练

多轮 RL 训练大模型进行工具调用时,常出现训练崩溃问题,SimpleTIR 旨在解决这一难题。

多轮训练崩溃的原因可归结为“分布偏移 + 低概率 token 的链式雪崩”。外部工具返回结果与模型预训练语料分布差异大,这些 OOD token 作为下一轮输入,使模型越采越偏,最终输出乱码或停止生成。同时,低概率 token 会导致重要性采样比值暴涨,引发梯度爆炸。

SimpleTIR 采用“无效轮(void turn)过滤”策略,只要某一回合既没生成可执行代码块,也没给出最终答案,就判定为“无效轮”,将整条轨迹丢弃,不用于更新策略。这一策略掐断了两条崩溃链路,一是避免梯度爆炸,从源头拔掉高幅值梯度;二是防止信用分配错位,使模型不再因无效轮后的失败惩罚前面正确的推理步骤。

在 Qwen2.5 – 7B 上进行纯强化学习训练,SimpleTIR 与直接多轮 RL 对比,其曲线稳定上升,梯度范数几乎无尖峰,而简单的多轮训练在第 300 步左右就开始崩溃。

此外,SimpleTIR 的训练催生了多样化的推理行为,如渐进推理、交叉验证和错误回环,这些策略是模型在无监督奖励下自发涌现的。

SimpleTIR 的核心贡献在于提供了一条可复制、工程友好的多轮工具调用训练技巧。它无需冷启动和人类标注,直接基于 base 模型进行纯强化学习;无效轮检测逻辑简单,仅 10 行代码,可无缝加入任意 RL 框架;对不同模型参数量均能保持训练稳定。其核心实现已开源,在 LLM 多轮工具调用中,丢掉“void turn”轨迹可实现稳定多轮训练,这是 SimpleTIR 带来的最大启示。

原文和模型


【原文链接】 阅读原文 [ 1117字 | 5分钟 ]
【原文作者】 AI科技评论
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...