国产推理大模型决战2025考研数学，看看谁第一个上岸？

AIGC动态7个月前发布 almosthuman2014

1,547 0 0

文章摘要

随着2025年研究生考试的结束，考研数学真题成为了测试大语言模型，尤其是推理模型深度思考能力的重要工具。过去，大语言模型在数学问题上的表现并不理想，但随着深度推理模型的出现，这一状况得到了显著改善。OpenAI的o1模型在处理复杂数理问题上表现出色，而国内厂商也推出了各自的深度推理模型，并在某些任务上取得了亮眼的成绩。

清华SuperBench大模型测评团队对国内外的深度推理模型进行了严格的数学推理能力评测，包括OpenAI的GPT-o1、智谱的GLM-Zero-Preview等13个模型。评测结果显示，OpenAI的GPT-o1模型以超过140分的平均分位居第一，智谱的GLM-Zero-Preview以138.70分的成绩紧随其后，成为国产大模型中的佼佼者，而阿里通义的QwQ模型排名第三。

评测过程中，为了保证公正性和准确性，测评团队统一采用各模型厂商的网页端进行测试，并在独立的对话窗口中进行每道题目的测试，以消除上下文信息的干扰。对于输出不稳定的模型，只有在三次测试中至少两次回答正确时，才记录为正确答案。

从总分来看，GPT-o1是唯一一个达到140分以上的模型，而国产模型GLM-zero-preview和QwQ分别以138.7分和137.0分的成绩位于第二梯队。深度思考模型普遍能够达到120分以上的水平，显示出在解决数学问题方面的强大能力。与此同时，基础模型GPT-4在本次测试中仅获得70.7分，位列末席，显示出语言模型在数学推理领域的显著进步。

在单张试卷的分析中，GPT-o1在66道题目中仅答错3.5道题，显示出其在深度推理模型中的领先地位。而基础模型与深度思考模型的对比分析显示，OpenAI的GPT-o1相较于基础模型GPT-4o提升幅度最为显著，达到57.3分。智谱和阿里的模型也有显著提升，而深度求索和月之暗面的提升幅度相对较小，这可能是因为其基础模型本身分数较高。

总体来看，虽然OpenAI的o1在深度推理方面仍然是最强的，但国产推理大模型正在逐渐缩小与它的差距，智谱GLM-zero-preview和阿里QwQ的成绩就是明证。