o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！

455 0 0

文章摘要

普特南数学竞赛（Putnam Exam）作为北美最难的本科数学竞赛之一，每年吸引来自数百所高校的3500多名学生参与。这场竞赛要求参赛者在6小时内完成作答，而今年，OpenAI发布的o1 pro在半小时内完成了全部赛题，尽管其错误率高达100%，12道题没有一道完全正确。o1 pro在解答过程中，尽管速度惊人，但在解题的准确性和完整性上存在明显不足。例如，对于A1题，虽然解题思路正确，但存在许多错误；A2题未能完全解决；A3题的答案完全错误。此外，B1题的答案在形式上正确，但证明方法站不住脚。

尽管o1 pro的表现在数学竞赛中不尽如人意，但在其他测试中，如CodeSignal创始人Tigran Sloyan进行的测试中，o1 pro在普特南数学竞赛A1题和IMO试题中表现出色。在普特南数学竞赛测试中，o1 pro成功做对了第一题，得分超越了30%的参赛者。在IMO测试中，o1 pro仅用6分48秒就解决了2006年测试集中最难的Q3题，而当年全球只有28名19岁以下顶尖数学天才能在规定时间内完全解出这道题。

xAI科学家Hieu Pham对o1 pro在IMO竞赛中的表现提出批评，认为其答案如果提交，最多只能得到1-2分（满分7分）。他指出，训练数据问题和答案中的可疑数值是导致这一结果的部分原因。另一位研究员Jason Li则对o1的表现表示惊讶，认为o1解决了一半的问题，这在普特南竞赛的历史排名中大约能进入前2%。

普特南数学竞赛每年12月举办，分为上午A试和下午B试，各三小时。比赛不仅考验知识，也是荣誉的象征，排名最高的团队和个人都能获得奖励和称号。去年第84届比赛中，MIT学生包揽了个体获奖者前五名，而团队获奖者前五名则分别来自MIT、哈佛、杜克、斯坦福和多伦多大学。