标签：多轮强化

谷歌发布新RL方法，性能提升巨大，o1模型已证明

在AIGC领域，大语言模型（LLM）的自我纠错能力一直是研究的重点。谷歌DeepMind的研究人员开发了一种名为SCoRe的多轮强化学习方法，旨在提升大模型在数学和代...

AIGC动态

12个月前