
文章摘要
随着高考结束,许多学生开始使用大模型来解答高考试题,结果显示大模型在这类任务上已经表现得非常熟练。这一现象引发了对未来高考防作弊难度的担忧,尤其是随着模型能力的提升,嵌入在手表或眼镜中的小型模型也能取得不错的成绩。Sam Altman最近提到,AI的温和奇点已经到来,尽管变化是渐进的,但像高考这样的制度设计可能会在未来几年因AI而发生模式上的变化。AI对高考的冲击可能是几十年来最深远的一次。
为了更直观地了解大模型在高考中的表现,社群中的几位朋友决定亲自测试全国高考一卷的语文和数学题。测试的模型包括GPT o3、Qwen3、文心X1 Turbo、DeepSeek R1和豆包(1.5或1.6)。测试方法严格,仅使用官方客户端,避免云端API或第三方工具,且所有题目都在新的会话中进行,以避免干扰。测试结果显示,文心X1 Turbo表现最佳,而DeepSeek表现最差,推理时间最长。
测试过程中发现,大模型仍存在幻觉问题,即同一道题在不同次测试中可能得到不同的答案。这使得测试结果难以极度客观,但可以肯定的是,大模型在数学和语文方面的能力已经超过普通高中生。大模型的发展速度非常快,预计明年在解高考题方面的能力还会进一步提升。
在具体题目分析中,模型对语文题目的驾驭能力比数学更强。例如,在阅读理解题中,所有模型都准确选择了正确答案C,但解释逻辑有所不同。文心X1 Turbo、GPT和DeepSeek的解释更为令人信服。在数学题中,文心X1 Turbo的解题方式更符合考试场景,简洁高效,而豆包和DeepSeek的推理过程则显得复杂且耗时。
综合来看,文心X1 Turbo和GPT o3是这次测试中表现最出色的模型,文心X1 Turbo在解题思路和效率上更胜一筹。尽管有些模型在解题思路上还不够严谨,但考虑到它们的正式发布时间还不到三年,未来的发展潜力巨大。
AI已不再是未来的设想,而是一个正在成熟、越来越值得信赖的现实伙伴。亲戚家的孩子在填报志愿时也利用AI查阅学校和专业资料,显示出AI在教育领域的广泛应用。随着Agent的快速发展,AI正逐渐成为我们生活中不可或缺的一部分。
原文和模型
【原文链接】 阅读原文 [ 2676字 | 11分钟 ]
【原文作者】 AI产品阿颖
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★