SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门

文章摘要
【关 键 词】 大模型、遗忘问题、强化学习、监督微调、KL散度
我们已进入大模型时代,大模型成为智能化基础设施核心,支撑多种下游应用,但多数模型是细分领域任务的专家,离通用人工智能(AGI)尚远,且存在“灾难性遗忘”问题,即学习新任务时会丢掉旧技能。针对此问题,麻省理工学院研究者发表论文,揭示大模型遗忘现象规律与训练策略。
现代AI系统在学习新任务时易遗忘先前知识,限制了基础模型作为长期学习代理的能力。研究对比监督微调(SFT)和强化学习(RL)两种后训练方式,发现即便二者在新任务上表现相当,SFT常“牺牲旧知识”提升新任务,而RL能在学习新技能时更多保留原有能力。
研究揭示了“遗忘定律”,模型在新任务上微调时,遗忘程度可通过新任务上评估的微调策略和基线策略之间的KL散度精确预测。实验表明,微调后模型与原始模型在新任务分布上差异越大,遗忘越严重,前向KL散度是遗忘的一致预测指标。
RL的优势源于其“KL偏好”,即天然偏向选择离原始模型更近(KL更小)的解,而SFT可能收敛到距离原始模型很远的解导致严重遗忘。构造“oracle SFT”分布实验显示,只要训练过程偏向KL最小解,模型遗忘就会减少。
机制分析表明,数据收集的在线策略性质是RL KL保守行为的关键因素。作者从信息几何视角为强化学习的KL – 最小收敛提供理论基础,解释了“RL的剃刀”原理。
研究还表明该原理超越简单实验环境,RL比SFT与基础模型相似性更高,扩大规模也不能消除SFT中固有的遗忘权衡。
论文核心贡献有三点:一是实验证明相同性能下RL比SFT更不易遗忘;二是提出遗忘定律,新任务上的KL散度是预测遗忘的关键指标;三是理论与实证结合,解释了RL优势来自其在线策略特性。这项研究为后训练提供新视角,确立KL散度为持续学习系统基本设计原则,为开发能持续学习且无灾难性遗忘的AI代理指明方向。
原文和模型
【原文链接】 阅读原文 [ 2422字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★