重大突破!微软发布“自我进化”,帮小模型超OpenAI-o1

AIGC动态2天前发布 AIGCOPEN
124 0 0
重大突破!微软发布“自我进化”,帮小模型超OpenAI-o1

 

文章摘要


【关 键 词】 rStar-Math数学推理算法创新模型进化AIGC发展

微软亚洲研究院近期发布了一项名为rStar-Math的创新算法,该算法通过结合代码增强的Chain-of-Thought(CoT)和蒙特卡洛树搜索(MCTS)技术,显著提升了小参数模型在数学推理方面的能力,无需依赖大型老师模型的蒸馏。在美国数学竞赛AIME 2024的测试中,rStar-Math展现出色的表现,解决了超过半数的难题,超越了OpenAI o1-preview及其他开源大模型,成为前20%最聪明的高中数学学生。

rStar-Math的核心在于代码增强CoT,它要求模型在生成自然语言推理步骤的同时,生成对应的Python代码以验证推理的正确性。此外,该算法利用MCTS来分解复杂问题,并通过策略模型生成候选步骤,代码执行过滤有效节点,确保推理轨迹的质量。

为了进一步提升推理质量,rStar-Math引入了过程奖励模型(PRM),通过构建步骤级的正负偏好对来训练模型,而不是依赖精确的步骤级评分。PRM的训练方法采用Bradley-Terry模型和成对排序损失函数,优化模型的预测能力,区分高质量和低质量的推理步骤。

rStar-Math通过四轮自我进化,逐步增强模型的推理能力。第一轮通过监督微调初步改进模型,第二轮通过PPM提升推理能力,第三轮通过PPM增强的MCTS生成更高质量的数据,第四轮增加MCTS回滚次数以解决超难数学问题。

微软开源的Phi-4小模型和rStar-Math算法的推出,预示着小模型在性能和效率上将逐渐成为主流,对中小企业和个人开发者尤为实用。这些进展不仅展示了小模型在特定领域的潜力,也为AIGC领域的发展提供了新的方向。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1751字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...