让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
文章摘要
【关 键 词】 数学推理、rStar-Math、蒙特卡洛、自我进化、性能提升
微软亚洲研究院的研究团队提出了一种名为rStar-Math的小型语言模型(SLM),在数学推理能力上表现出色,能够媲美甚至超越OpenAI的o1模型。rStar-Math通过自我进化的方式,利用蒙特卡洛树搜索(MCTS)实现深度思考能力,无需依赖大型模型的蒸馏。在MATH基准测试中,rStar-Math将Qwen2.5-Math-7B的成绩从58.8%提升至90.0%,将Phi3-mini-3.8B的正确率从41.4%提升至86.4%,分别超过了o1-preview 4.5%和0.9%。在AIME考试中,rStar-Math能够正确解答15道题中的8道,表现优于前20%的高中数学竞赛生。此外,rStar-Math仅花费60块A100就达到了这一效果,项目和代码即将开源。
rStar-Math的技术亮点包括:
1. 创新的代码增强CoT数据合成方法,通过大量MCTS rollout生成经过验证的逐步推理轨迹,用于训练策略SLM;
2. 过程奖励模型训练方法的改进,避免了简单的步级分数标注,提升了过程偏好模型(PPM)的评估效果;
3. 模型自我进化,采用完全自主训练方案,从零开始构建并训练模型,通过持续的迭代优化来不断提升推理能力。
实验评估显示,rStar-Math在多个数学数据集上的表现优于其他SOTA推理模型。它在模型规模显著缩小(1.5B-7B)的情况下,性能可媲美甚至超越OpenAI o1。此外,rStar-Math在其他具有挑战性的数学基准上表现出很强的通用性,创下了新的最高分。
消融研究和分析表明,rStar-Math的三项创新有效性显著。自我进化后,表现很不错。使用新提出的逐步验证的轨迹进行微调明显优于所有其他基线。这主要归功于用于代码增强型CoT合成的PPM增强型MCTS,它能在数学解答生成期间提供更密集的验证。
研究还发现,rStar-Math展现出了自反思能力,这是在没有专门训练和提示的情况下自发产生的,表明高级System 2推理可以自然培养出内在的自省能力。实验表明,一旦策略模型达到相当强的能力水平,PPM就成为决定性能上限的关键。通过加入System 2推理机制,即使是Phi3.8B这样的小模型也能获得显著性能提升,在多个数学基准测试中的准确率提高了约20-30个百分点。这表明,奖励模型(而不是基础模型的大小)才是决定最终性能的关键因素。
原文和模型
【原文链接】 阅读原文 [ 2969字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★