仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理

AIGC动态2天前发布 ai-front
85 0 0
仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理

 

文章摘要


【关 键 词】 PRIME算法强化学习隐式奖励大模型AI社区

清华大学NLP实验室联合上海AI Lab、清华大学电子系及OpenBMB社区提出了一种新的结合过程奖励的强化学习方法PRIME(Process Reinforcement through IMplicit REwards)。该方法不依赖蒸馏数据和模仿学习,仅用8张A100,花费约一万块钱,不到10天时间,就能高效训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。PRIME算法从隐式过程奖励的思想出发,解决了强化学习中如何获得精准且可扩展的密集奖励、如何设计可以充分利用这些奖励的强化学习算法的挑战。隐式过程奖励模型可以仅在输出奖励模型的数据上进行训练,而隐式地建模过程奖励,最终自动训练出一个过程奖励模型,整个过程都有严格的理论保证。

PRIME算法具有过程奖励、可扩展性和简洁性三大优势。过程奖励方面,隐式过程奖励模型能够为每个token提供价值估计,在提供过程奖励的同时无需训练额外的价值模型。可扩展性方面,隐式过程奖励模型只需结果标签即可在线更新,有效缓解分布偏移与可扩展性问题。简洁性方面,隐式过程奖励模型本质上就是一种语言模型,可以直接用初始的策略模型初始化PRM。

实验结果表明,相比于仅用结果监督,PRIME有着2.5倍的采样效率提升,在下游任务上也有着显著提升。此外,研究人员还验证了PRM在线更新的重要性,在线的PRM更新要显著优于固定不更新的PRM,这也证明了PRIME算法设计和合理性。

PRIME算法创新性地将隐式过程奖励与强化学习结合,解决了大模型强化学习的奖励稀疏问题,有望推动大模型复杂推理能力的进一步提升。该项目一经开源就在海外AI社区爆火,短短几天Github取得400+star。未来,基于PRIME方法和更强的基座模型有潜力训练出接近OpenAI o1的模型。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1370字 | 6分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...