让7B千问模型超越o1，微软rStar-Math惊艳登场，网友盛赞

AIGC动态7个月前发布 almosthuman2014

1,444 0 0

文章摘要

【关键词】 数学推理、rStar-Math、蒙特卡洛、自我进化、性能提升

微软亚洲研究院的研究团队提出了一种名为rStar-Math的小型语言模型（SLM），在数学推理能力上表现出色，能够媲美甚至超越OpenAI的o1模型。rStar-Math通过自我进化的方式，利用蒙特卡洛树搜索（MCTS）实现深度思考能力，无需依赖大型模型的蒸馏。在MATH基准测试中，rStar-Math将Qwen2.5-Math-7B的成绩从58.8%提升至90.0%，将Phi3-mini-3.8B的正确率从41.4%提升至86.4%，分别超过了o1-preview 4.5%和0.9%。在AIME考试中，rStar-Math能够正确解答15道题中的8道，表现优于前20%的高中数学竞赛生。此外，rStar-Math仅花费60块A100就达到了这一效果，项目和代码即将开源。

rStar-Math的技术亮点包括：
1. 创新的代码增强CoT数据合成方法，通过大量MCTS rollout生成经过验证的逐步推理轨迹，用于训练策略SLM；
2. 过程奖励模型训练方法的改进，避免了简单的步级分数标注，提升了过程偏好模型（PPM）的评估效果；
3. 模型自我进化，采用完全自主训练方案，从零开始构建并训练模型，通过持续的迭代优化来不断提升推理能力。

实验评估显示，rStar-Math在多个数学数据集上的表现优于其他SOTA推理模型。它在模型规模显著缩小（1.5B-7B）的情况下，性能可媲美甚至超越OpenAI o1。此外，rStar-Math在其他具有挑战性的数学基准上表现出很强的通用性，创下了新的最高分。

消融研究和分析表明，rStar-Math的三项创新有效性显著。自我进化后，表现很不错。使用新提出的逐步验证的轨迹进行微调明显优于所有其他基线。这主要归功于用于代码增强型CoT合成的PPM增强型MCTS，它能在数学解答生成期间提供更密集的验证。

研究还发现，rStar-Math展现出了自反思能力，这是在没有专门训练和提示的情况下自发产生的，表明高级System 2推理可以自然培养出内在的自省能力。实验表明，一旦策略模型达到相当强的能力水平，PPM就成为决定性能上限的关键。通过加入System 2推理机制，即使是Phi3.8B这样的小模型也能获得显著性能提升，在多个数学基准测试中的准确率提高了约20-30个百分点。这表明，奖励模型（而不是基础模型的大小）才是决定最终性能的关键因素。