考研数学得126分、还能编写小游戏，智谱首个推理模型来了，人人免费用

AIGC动态8个月前发布 almosthuman2014

1,429 0 0

文章摘要

智谱GLM模型家族在2024年最后一天推出了GLM-Zero-Preview，这是一家专注于深度思考与推理的新成员。GLM-Zero-Preview在处理数理逻辑、代码和需要深度推理的复杂问题方面表现出色，不仅保持了通用任务的能力，还显著提升了专家任务能力。在数学能力方面，该模型在2025年考研数学一测试中得分126，达到了优秀研究生水平，并能提供详细的解题步骤。此外，GLM-Zero-Preview还能熟练使用多种编程语言，帮助开发者快速编写和调试代码。

GLM-Zero-Preview已经上线，用户可以在智谱清言网页端体验，其API也在智谱开放平台上线供开发者调用。作为智谱首个基于扩展强化学习技术训练的推理模型，GLM-Zero-Preview在多个基准测试中与OpenAI o1-preview互有胜负，尤其在数学基准测试AIME 2024、MATH500和代码生成基准测试LiveCodeBench中实现小幅超越。

技术实现上，GLM-Zero-Preview的深度推理能力随着强化学习训练量的增加而稳步提升，模型在推理阶段可以思考的token数和计算量增加，输出结果质量也稳步提升。这使得GLM-Zero-Preview表现出类人的思考决策过程，具备了推理过程中自主决策、问题拆解、尝试多种方式解决问题的能力。

在真实世界任务中，GLM-Zero-Preview能够轻松处理小数点后比大小问题，不受干扰项影响，能够排除干扰项，理清思路。在中文语境下，GLM-Zero-Preview能够应对歧义性、语境依赖、隐含信息、文化背景等陷阱，从不同视角考虑和深度推理，排除不可能后确认最合理的解释和答案。

在常识推理和时间感知能力方面，GLM-Zero-Preview表现出色，能够理解时间顺序、事件发生的时序关系，具备清晰的预测和推断能力。在数学能力方面，GLM-Zero-Preview具备了更强的归纳与演绎能力，能够观察规律、找出规律、验证规律。

在与其他竞品模型的比较中，GLM-Zero-Preview在逻辑性、解题过程的清晰度和完整性、自我反思等方面表现出优势。智谱表示，GLM-Zero-Preview与o3还有差距，未来将通过强化学习技术的持续优化迭代，使其成为更聪明的推理者。正式版GLM-Zero将很快推出，深度思考能力将从数理逻辑扩展到更通用的技术，保证更专精的同时全能性也更强。

智谱在AGI终极目标的追求下，形成了一套从L1到L5阶段的AGI路线图，在AI分级上注入自己的能力进化思考。GLM-Zero-Preview代表智谱迈出了L4阶段的关键一步，大模型开始内省，并具备自我学习、自我反思、自我改进能力。2025年，模型推理能力被寄予厚望，智谱GLM家族的产品矩阵在完整度层面称得上业界领先。