强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

AIGC动态11个月前发布 almosthuman2014

2,018 0 0

文章摘要

在大语言模型（LLM）的研究领域，自我纠正能力一直是一个重要的研究方向。然而，现有的自我纠正训练方法通常依赖于多个模型或额外的监督，这限制了其实用性。Google DeepMind 的研究者在最近的一项研究中提出了一种新的自我纠正方法，即通过强化学习进行自我纠正（SCoRe），这种方法不需要外部反馈或额外模型，只需训练一个模型即可实现自我纠正。

SCoRe 方法的核心是通过多轮强化学习来训练模型，使其能够在自生成数据上进行自我纠正。这种方法分为两个阶段：第一阶段是训练模型初始化以防止崩溃，第二阶段是带有奖励的多轮强化学习。在第一阶段，研究者通过微调基础模型，使其在第二次尝试时产生高奖励修正，同时限制第一次尝试的响应分布，以避免崩溃现象。在第二阶段，模型在耦合两个响应时表现出更小的偏差，可以训练两次尝试的响应，并根据优化奖励进行调整。

实验评估表明，SCoRe 方法在数学（MATH）推理问题和编码问题（HumanEval）上分别取得了15.6%和9.1%的增益，显示出其在自我纠正能力方面的有效性。此外，研究还通过消融实验探索了SCoRe的每个组件的影响，包括多轮训练的重要性、多阶段训练的重要性、奖励函数设计的影响以及on-policy强化学习的重要性。

这项研究的主要贡献在于提出了一种新的自我纠正方法，该方法不依赖于外部反馈或额外模型，而是通过强化学习在自生成数据上进行训练，从而提高了LLM的自我纠正能力。这对于提高LLM的鲁棒性和可靠性具有重要意义，也为未来的研究提供了新的思路和方法。