微软分享三大王炸算法:突破大模型推理瓶颈,性能大涨

AIGC动态8小时前发布 AIGCOPEN
24 0 0
微软分享三大王炸算法:突破大模型推理瓶颈,性能大涨

 

文章摘要


【关 键 词】 算法推理模型数学创新

微软近日分享了其自研的三大创新算法——rStar-Math、LIPS和CPL,旨在增强大语言模型推理能力,特别是在数学推理和思考链方面的表现。这些算法不仅适用于小参数模型,也能为大参数模型提供显著提升,帮助突破推理瓶颈。

rStar-Math算法通过蒙特卡洛树搜索(MCTS)实现深度思考,生成高质量的推理轨迹。该算法引入了代码增强的CoT方法,模型在生成推理步骤时同时生成对应的Python代码,用于验证步骤的正确性。只有代码成功执行的生成内容才会被保留,确保中间步骤的准确性。此外,rStar-Math提出了一种新的训练方法,通过构建基于Q值的正负偏好对来训练PPM,显著提高了奖励模型的精度和可靠性。该算法还通过四轮自我进化,逐步构建策略模型和PPM,生成的训练数据质量不断提高,覆盖的问题难度也逐渐增加。

LIPS算法专注于增强数学推理,其核心思想是将数学证明过程中的策略分为缩放和重写两大类。缩放策略通过符号工具实现,利用有限的不等式引理库对当前目标进行细化,而重写策略则由大模型负责生成,通过等价变换将问题转化为更易于解决的形式。LIPS算法在目标过滤与排序方面采用了两个阶段:符号过滤和神经排序。通过符号过滤阶段,利用不等式的齐次性和解耦性来评估每个目标的潜力,而在神经排序阶段,利用大模型对经过符号过滤后的前k个目标进行最终排序。

CPL算法是一种基于关键计划步骤学习的方法,旨在通过在高层次抽象计划空间中进行搜索,提升模型的泛化能力和推理性能。与传统的解决方案搜索不同,计划空间搜索关注的是高层次的抽象计划,而不是具体的解决方案。CPL通过Step-APO学习关键计划步骤,Step-APO是基于Direct Preference Optimization(DPO)的一种改进方法,通过引入优势估计来优化步骤偏好,帮助模型识别并强化那些真正重要的步骤。

总体而言,这三大算法通过不同的方式增强了大模型的推理能力,特别是在数学推理和跨任务泛化方面,展现了显著的创新和实用性。

原文和模型


【原文链接】 阅读原文 [ 1872字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...