我让10个大模型又参加了完整版数学高考，第一名居然是它。。。

820 0 0

文章摘要

在最近的一次测试中，多个大模型参与了数学高考的模拟考试，旨在评估它们在复杂数学问题上的表现。测试涵盖了单选题、填空题和解答题，特别关注了AI在处理高难度题目时的能力。测试结果显示，尽管AI在解答题上的表现普遍较好，但在涉及图片理解和推理的题目上，大多数模型表现不佳。其中，OpenAI的模型在三次尝试中两次正确，成为唯一在多模态题目上有所突破的模型。

测试过程中，每个模型对每道题进行了三次回答，根据正确比例评分。最终得分显示，讯飞星火和豆包以145分并列第一，而Qwen3以143.3分位居第三。Gemini2.5 pro、混元T1和文心x1分别位列第四和第五。这些结果不仅展示了AI在数学问题上的进步，也揭示了其在处理特定类型题目时的局限性。

值得注意的是，尽管AI在数学高考模拟中表现出色，但与人类学生相比，它们在处理需要直观理解或复杂推理的题目时仍有不足。此外，测试还强调了AI在处理多模态数据（如图片）时的挑战，这可能是未来研究和开发的重点。

总的来说，这次测试不仅为AI在数学领域的应用提供了宝贵的数据，也为未来的技术改进指明了方向。随着AI技术的不断进化，其在教育和其他领域的潜力将越来越受到关注。