大模型的高考数学成绩单：及格已经非常好了

AIGC动态1年前 (2024)发布 almosthuman2014

1,726 0 0

文章摘要

在一年一度的高考落幕之际，一款名为“机器之心”的人工智能媒体进行了一场特别的实验：让国内六家顶尖的AI大模型公司产品参加高考数学考试（新课标Ⅰ卷），以此来检验这些大模型在逻辑推理、抽象思维和问题解决方面的能力。结果显示，在满分73分、及格线为43.8分的情况下，只有智谱最新发布的GLM-4-0520模型超过了及格线，其他模型均未达到预期。

此次测试的重点是高考数学的前14个客观题，覆盖了基础的数学知识和计算能力。在测试过程中，题目直接输入给AI模型，没有System Prompt引导，也没有触发搜索，确保了测试的客观性和公平性。

然而，令人惊讶的是，参与测试的AI模型普遍表现不佳，甚至出现了几乎全部不及格的情况。在具体题目上，虽然大部分模型能正确回答一些基础问题，但在更高级的题目上却难以应对。特别是每年的第8道单选题，被认为是高考数学最难的一道题，所有AI模型均未能正确回答。

通过这次测试，可以看出尽管AI模型在创造性写作等方面表现出色，但在需要深厚数学知识基础和严密逻辑推导的数学题目上，它们仍然存在明显的不足。这一结果反映出AI模型在高级认知能力方面仍有待提升。

具体而言，GLM-4-0520模型取得了最高分63分，智谱清言得分43分，GPT-4o得分41分，豆包和文心4以及百川4均得分30分，而通义千问2.5得分最低，仅有29分。这一成绩单揭示了AI大模型在数学推理方面的挑战，同时也为AI研发人员提供了未来改进的方向。