文章摘要
【关 键 词】 数学推理、rStar-Math、技术创新、自我进化、泛化能力
微软亚研院的全华人团队提出了一种名为rStar-Math的新算法,该算法通过三项技术创新,使得小型语言模型(SLM)在数学推理能力上取得了突破性进展,甚至超越了大型模型o1,并在美国数学奥林匹克(AIME)上取得了接近全美前20%顶尖高中生的成绩。这三项技术创新包括:全新的代码增强型CoT数据合成方法,该方法通过蒙特卡洛树搜索(MCTS)分解数学问题求解为多步骤生成,并通过执行Python代码验证生成质量;一种新颖的过程偏好模型(PPM)训练方法,该方法利用MCTS的Q值区分正向和负向步骤,优化PPM对推理步骤的评分预测;以及一个四轮自我进化方案,从公开数据源策划了一个包含747,000个数学题的数据集,通过迭代生成更高质量的训练数据。
rStar-Math的自我进化过程包括四个阶段:初始强策略SLM的引导训练、训练可靠的PPM、使用PPM增强的MCTS提高数据质量、解决高难度数学问题。通过这一过程,rStar-Math在多个数学基准测试中取得了显著的性能提升,包括MATH、GSM8K、AIME等,并在奥林匹克数学基准、大学数学和高考数学试题上展现了强大的泛化能力。
此外,rStar-Math还表现出了内在的自我反思能力,能够在问题求解过程中识别并修正错误。实验结果表明,PPM是决定系统2推理性能上限的关键因素,并且能够有效识别过程中关键的中间步骤。rStar-Math不仅在数学领域,还有潜力推广到定理证明、代码推理和常识推理等其他领域,为提升大型语言模型的推理能力提供了一种通用方法。
原文和模型
【原文链接】 阅读原文 [ 3267字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆