让大模型做高考题，结论没那么简单

1,078 0 0

文章摘要

随着高考结束，许多学生开始使用大模型来解答高考试题，结果显示大模型在这类任务上已经表现得非常熟练。这一现象引发了对未来高考防作弊难度的担忧，尤其是随着模型能力的提升，嵌入在手表或眼镜中的小型模型也能取得不错的成绩。Sam Altman最近提到，AI的温和奇点已经到来，尽管变化是渐进的，但像高考这样的制度设计可能会在未来几年因AI而发生模式上的变化。AI对高考的冲击可能是几十年来最深远的一次。

为了更直观地了解大模型在高考中的表现，社群中的几位朋友决定亲自测试全国高考一卷的语文和数学题。测试的模型包括GPT o3、Qwen3、文心X1 Turbo、DeepSeek R1和豆包（1.5或1.6）。测试方法严格，仅使用官方客户端，避免云端API或第三方工具，且所有题目都在新的会话中进行，以避免干扰。测试结果显示，文心X1 Turbo表现最佳，而DeepSeek表现最差，推理时间最长。

测试过程中发现，大模型仍存在幻觉问题，即同一道题在不同次测试中可能得到不同的答案。这使得测试结果难以极度客观，但可以肯定的是，大模型在数学和语文方面的能力已经超过普通高中生。大模型的发展速度非常快，预计明年在解高考题方面的能力还会进一步提升。

在具体题目分析中，模型对语文题目的驾驭能力比数学更强。例如，在阅读理解题中，所有模型都准确选择了正确答案C，但解释逻辑有所不同。文心X1 Turbo、GPT和DeepSeek的解释更为令人信服。在数学题中，文心X1 Turbo的解题方式更符合考试场景，简洁高效，而豆包和DeepSeek的推理过程则显得复杂且耗时。

综合来看，文心X1 Turbo和GPT o3是这次测试中表现最出色的模型，文心X1 Turbo在解题思路和效率上更胜一筹。尽管有些模型在解题思路上还不够严谨，但考虑到它们的正式发布时间还不到三年，未来的发展潜力巨大。

AI已不再是未来的设想，而是一个正在成熟、越来越值得信赖的现实伙伴。亲戚家的孩子在填报志愿时也利用AI查阅学校和专业资料，显示出AI在教育领域的广泛应用。随着Agent的快速发展，AI正逐渐成为我们生活中不可或缺的一部分。