文章摘要
【关 键 词】 数学竞赛、普特南、AI挑战、解题错误、成绩排名
普特南数学竞赛(Putnam Exam)作为北美最难的本科数学竞赛之一,每年吸引来自数百所高校的3500多名学生参与。这场竞赛要求参赛者在6小时内完成作答,而今年,OpenAI发布的o1 pro在半小时内完成了全部赛题,尽管其错误率高达100%,12道题没有一道完全正确。o1 pro在解答过程中,尽管速度惊人,但在解题的准确性和完整性上存在明显不足。例如,对于A1题,虽然解题思路正确,但存在许多错误;A2题未能完全解决;A3题的答案完全错误。此外,B1题的答案在形式上正确,但证明方法站不住脚。
尽管o1 pro的表现在数学竞赛中不尽如人意,但在其他测试中,如CodeSignal创始人Tigran Sloyan进行的测试中,o1 pro在普特南数学竞赛A1题和IMO试题中表现出色。在普特南数学竞赛测试中,o1 pro成功做对了第一题,得分超越了30%的参赛者。在IMO测试中,o1 pro仅用6分48秒就解决了2006年测试集中最难的Q3题,而当年全球只有28名19岁以下顶尖数学天才能在规定时间内完全解出这道题。
xAI科学家Hieu Pham对o1 pro在IMO竞赛中的表现提出批评,认为其答案如果提交,最多只能得到1-2分(满分7分)。他指出,训练数据问题和答案中的可疑数值是导致这一结果的部分原因。另一位研究员Jason Li则对o1的表现表示惊讶,认为o1解决了一半的问题,这在普特南竞赛的历史排名中大约能进入前2%。
普特南数学竞赛每年12月举办,分为上午A试和下午B试,各三小时。比赛不仅考验知识,也是荣誉的象征,排名最高的团队和个人都能获得奖励和称号。去年第84届比赛中,MIT学生包揽了个体获奖者前五名,而团队获奖者前五名则分别来自MIT、哈佛、杜克、斯坦福和多伦多大学。
原文和模型
【原文链接】 阅读原文 [ 1804字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆