首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

 

文章摘要


【关 键 词】 OpenR框架复杂推理强化学习数据增强开源社区

由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合研究的首个类o1全链条训练框架「OpenR」已开源,旨在提升大型语言模型(LLM)的复杂推理能力。OpenR集成了过程奖励模型(PRM)训练、强化学习、多种搜索框架,通过模型方法超越传统自回归方法,其有效性已在MATH数据集上得到验证。

OpenR的设计包括数据获取、强化学习训练及非自回归解码,其过程奖励模型(PRM)在训练期间通过策略优化技术改进LLM策略,并在解码阶段引导LLM搜索过程。此外,OpenR采用详细反馈方式进行数据增强,并通过自动生成合成样本来增强数据,减少人工标注依赖。PRM的监督训练通过在LLM上的监督微调实现,而LLM的策略学习则通过将数学问题转换为马尔可夫决策过程(MDP)来逐步解决问题。

在解码阶段,OpenR使用PRM评估解决方案的准确性,并通过多种策略选择最佳答案。实验结果显示,随着生成预算的增加,最佳N选择和束搜索方法的性能显著优于多数投票。OpenR支持多种搜索算法,如Beam Search、Best-of-N和蒙特卡洛树搜索等,每种算法在PRM的质量上有其独特的优势。

OpenR的开源框架包括代码、模型和数据集,可通过其官方网站访问,旨在推动推理领域开源社区的发展。该框架的实验结果表明,其方法能够有效提升LLM在复杂推理任务上的表现,甚至超过平均人类水平。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3373字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...