刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科
文章摘要
【关 键 词】 推理模型、强化学习、文理兼修、视觉推理、Scaling Law
阶跃星辰发布了其Step系列模型家族的首个推理模型——Step Reasoner mini(Step R-mini),标志着国内推理模型领域的一大进展。Step R-mini擅长规划、尝试和反思,通过慢思考和逻辑验证机制提供准确可靠的回复。该模型不仅在逻辑推理、代码和数学等复杂问题上表现出色,还能处理文学创作等通用领域任务,实现了“文理兼修”。
Step R-mini在AIME 2024和Math500数学基准测试中达到SOTA水平,在Math500上得分甚至超过o1-mini 2分。其代码编写能力也在LiveCodeBench代码任务上超越了o1-preview。这一成就归功于模型高比例的RL(强化学习)含量和良好的泛化性,以及在数据质量、测试时计算和模型大小等方面的scaling,再次验证了Scaling Law的有效性。
Step R-mini的开发遵循当前主流的推理模型开发范式,通过增加推理阶段的计算量和结合思维链技术实现“慢思考”。该系统能根据任务复杂性进行主动规划、尝试和反思,提供准确可靠的反馈。大规模的强化学习训练和On-Policy强化学习算法使其在数学、代码、逻辑推理问题上表现出色,同时也能富有创意地完成文学内容创作和日常聊天任务。
Step R-mini的推理能力提升得益于阶跃星辰对Scaling Law原则的坚持,包括Scaling强化学习、Scaling数据质量、Scaling Test-Time Compute和Scaling模型大小。在实际测试中,Step R-mini在文理融合题目、高考数学题和逻辑推理题上均表现出色,通过多轮思考验证答案的正确性。在文科任务如翻译和起名方面,Step R-mini也能流畅切换语言模式并给出满意的结果。
除了语言推理模型,阶跃星辰还在打造视觉推理模型,将推理能力融入更多交互形态的大模型中。针对复杂视觉场景下的Reasoning问题,阶跃星辰引入慢感知和空间推理思想,实现视觉空间下的Spatial-Slow-Thinking。这标志着阶跃星辰在推理模型领域又迈出了重要一步。
原文和模型
【原文链接】 阅读原文 [ 1712字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆