标签:多轮强化

谷歌发布新RL方法,性能提升巨大,o1模型已证明

在AIGC领域,大语言模型(LLM)的自我纠错能力一直是研究的重点。谷歌DeepMind的研究人员开发了一种名为SCoRe的多轮强化学习方法,旨在提升大模型在数学和代...