微软分享三大王炸算法：突破大模型推理瓶颈，性能大涨

1,012 0 0

文章摘要

微软近日分享了其自研的三大创新算法——rStar-Math、LIPS和CPL，旨在增强大语言模型的推理能力，特别是在数学推理和思考链方面的表现。这些算法不仅适用于小参数模型，也能为大参数模型提供显著提升，帮助突破推理瓶颈。

rStar-Math算法通过蒙特卡洛树搜索（MCTS）实现深度思考，生成高质量的推理轨迹。该算法引入了代码增强的CoT方法，模型在生成推理步骤时同时生成对应的Python代码，用于验证步骤的正确性。只有代码成功执行的生成内容才会被保留，确保中间步骤的准确性。此外，rStar-Math提出了一种新的训练方法，通过构建基于Q值的正负偏好对来训练PPM，显著提高了奖励模型的精度和可靠性。该算法还通过四轮自我进化，逐步构建策略模型和PPM，生成的训练数据质量不断提高，覆盖的问题难度也逐渐增加。

LIPS算法专注于增强数学推理，其核心思想是将数学证明过程中的策略分为缩放和重写两大类。缩放策略通过符号工具实现，利用有限的不等式引理库对当前目标进行细化，而重写策略则由大模型负责生成，通过等价变换将问题转化为更易于解决的形式。LIPS算法在目标过滤与排序方面采用了两个阶段：符号过滤和神经排序。通过符号过滤阶段，利用不等式的齐次性和解耦性来评估每个目标的潜力，而在神经排序阶段，利用大模型对经过符号过滤后的前k个目标进行最终排序。

CPL算法是一种基于关键计划步骤学习的方法，旨在通过在高层次抽象计划空间中进行搜索，提升模型的泛化能力和推理性能。与传统的解决方案搜索不同，计划空间搜索关注的是高层次的抽象计划，而不是具体的解决方案。CPL通过Step-APO学习关键计划步骤，Step-APO是基于Direct Preference Optimization（DPO）的一种改进方法，通过引入优势估计来优化步骤偏好，帮助模型识别并强化那些真正重要的步骤。

总体而言，这三大算法通过不同的方式增强了大模型的推理能力，特别是在数学推理和跨任务泛化方面，展现了显著的创新和实用性。