大模型的高考数学成绩单:及格已经非常好了
文章摘要
【关 键 词】 高考数学、AI测试、模型能力、知识基础、认知挑战
在一年一度的高考落幕之际,一款名为“机器之心”的人工智能媒体进行了一场特别的实验:让国内六家顶尖的AI大模型公司产品参加高考数学考试(新课标Ⅰ卷),以此来检验这些大模型在逻辑推理、抽象思维和问题解决方面的能力。结果显示,在满分73分、及格线为43.8分的情况下,只有智谱最新发布的GLM-4-0520模型超过了及格线,其他模型均未达到预期。
此次测试的重点是高考数学的前14个客观题,覆盖了基础的数学知识和计算能力。在测试过程中,题目直接输入给AI模型,没有System Prompt引导,也没有触发搜索,确保了测试的客观性和公平性。
然而,令人惊讶的是,参与测试的AI模型普遍表现不佳,甚至出现了几乎全部不及格的情况。在具体题目上,虽然大部分模型能正确回答一些基础问题,但在更高级的题目上却难以应对。特别是每年的第8道单选题,被认为是高考数学最难的一道题,所有AI模型均未能正确回答。
通过这次测试,可以看出尽管AI模型在创造性写作等方面表现出色,但在需要深厚数学知识基础和严密逻辑推导的数学题目上,它们仍然存在明显的不足。这一结果反映出AI模型在高级认知能力方面仍有待提升。
具体而言,GLM-4-0520模型取得了最高分63分,智谱清言得分43分,GPT-4o得分41分,豆包和文心4以及百川4均得分30分,而通义千问2.5得分最低,仅有29分。这一成绩单揭示了AI大模型在数学推理方面的挑战,同时也为AI研发人员提供了未来改进的方向。
原文和模型
【原文链接】 阅读原文 [ 6056字 | 25分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...