首个o1复现开源RL框架OpenR来了，UCL、上交等高校联合团队发布

AIGC动态10个月前发布 almosthuman2014

2,653 0 0

文章摘要

由伦敦大学学院（UCL）、上海交通大学、利物浦大学、香港科技大学（广州）和西湖大学联合研究的首个类o1全链条训练框架「OpenR」已开源，旨在提升大型语言模型（LLM）的复杂推理能力。OpenR集成了过程奖励模型（PRM）训练、强化学习、多种搜索框架，通过模型方法超越传统自回归方法，其有效性已在MATH数据集上得到验证。

OpenR的设计包括数据获取、强化学习训练及非自回归解码，其过程奖励模型（PRM）在训练期间通过策略优化技术改进LLM策略，并在解码阶段引导LLM搜索过程。此外，OpenR采用详细反馈方式进行数据增强，并通过自动生成合成样本来增强数据，减少人工标注依赖。PRM的监督训练通过在LLM上的监督微调实现，而LLM的策略学习则通过将数学问题转换为马尔可夫决策过程（MDP）来逐步解决问题。

在解码阶段，OpenR使用PRM评估解决方案的准确性，并通过多种策略选择最佳答案。实验结果显示，随着生成预算的增加，最佳N选择和束搜索方法的性能显著优于多数投票。OpenR支持多种搜索算法，如Beam Search、Best-of-N和蒙特卡洛树搜索等，每种算法在PRM的质量上有其独特的优势。

OpenR的开源框架包括代码、模型和数据集，可通过其官方网站访问，旨在推动推理领域开源社区的发展。该框架的实验结果表明，其方法能够有效提升LLM在复杂推理任务上的表现，甚至超过平均人类水平。