考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

 

文章摘要


【关 键 词】 深度推理编程助手数学能力常识推理AGI路线

智谱GLM模型家族在2024年最后一天推出了GLM-Zero-Preview,这是一家专注于深度思考与推理的新成员。GLM-Zero-Preview在处理数理逻辑、代码和需要深度推理的复杂问题方面表现出色,不仅保持了通用任务的能力,还显著提升了专家任务能力。在数学能力方面,该模型在2025年考研数学一测试中得分126,达到了优秀研究生水平,并能提供详细的解题步骤。此外,GLM-Zero-Preview还能熟练使用多种编程语言,帮助开发者快速编写和调试代码。

GLM-Zero-Preview已经上线,用户可以在智谱清言网页端体验,其API也在智谱开放平台上线供开发者调用。作为智谱首个基于扩展强化学习技术训练的推理模型,GLM-Zero-Preview在多个基准测试中与OpenAI o1-preview互有胜负,尤其在数学基准测试AIME 2024、MATH500和代码生成基准测试LiveCodeBench中实现小幅超越。

技术实现上,GLM-Zero-Preview的深度推理能力随着强化学习训练量的增加而稳步提升,模型在推理阶段可以思考的token数和计算量增加,输出结果质量也稳步提升。这使得GLM-Zero-Preview表现出类人的思考决策过程,具备了推理过程中自主决策、问题拆解、尝试多种方式解决问题的能力。

在真实世界任务中,GLM-Zero-Preview能够轻松处理小数点后比大小问题,不受干扰项影响,能够排除干扰项,理清思路。在中文语境下,GLM-Zero-Preview能够应对歧义性、语境依赖、隐含信息、文化背景等陷阱,从不同视角考虑和深度推理,排除不可能后确认最合理的解释和答案。

常识推理和时间感知能力方面,GLM-Zero-Preview表现出色,能够理解时间顺序、事件发生的时序关系,具备清晰的预测和推断能力。在数学能力方面,GLM-Zero-Preview具备了更强的归纳与演绎能力,能够观察规律、找出规律、验证规律。

在与其他竞品模型的比较中,GLM-Zero-Preview在逻辑性、解题过程的清晰度和完整性、自我反思等方面表现出优势。智谱表示,GLM-Zero-Preview与o3还有差距,未来将通过强化学习技术的持续优化迭代,使其成为更聪明的推理者。正式版GLM-Zero将很快推出,深度思考能力将从数理逻辑扩展到更通用的技术,保证更专精的同时全能性也更强。

智谱在AGI终极目标的追求下,形成了一套从L1到L5阶段的AGI路线图,在AI分级上注入自己的能力进化思考。GLM-Zero-Preview代表智谱迈出了L4阶段的关键一步,大模型开始内省,并具备自我学习、自我反思、自我改进能力。2025年,模型推理能力被寄予厚望,智谱GLM家族的产品矩阵在完整度层面称得上业界领先。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2396字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...