标签:多轮训练

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作

在大语言模型(LLM)的研究领域,自我纠正能力一直是一个重要的研究方向。然而,现有的自我纠正训练方法通常依赖于多个模型或额外的监督,这限制了其实用性。...