![o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜](https://www.xuexiaigc.com/wp-content/uploads/article-images/34399519bf67943dc2.jpeg)
文章摘要
【关 键 词】 数学竞赛、大模型、数据污染、泛化能力、强化学习
近期,AIME 2025 I数学竞赛中大语言模型的表现引发了广泛关注。 一些顶尖模型如o3-mini和DeepSeek-R1分别取得了78%和65%的高分,而部分较小的蒸馏模型也意外达到了25%-50%的得分。这些结果不仅展现了AI在解决复杂数学问题中的潜力,同时也引发了对模型能力本质的质疑。核心争议点在于,这些模型究竟是真正具备推理能力,还是因为训练数据中包含类似题目的答案,从而实现了“记忆式”表现。
质疑的声音来自威斯康星大学麦迪逊分校的教授Dimitris Papailiopoulos,他指出一些小模型在复杂题目上的表现令人难以置信,尤其是1.5B参数量的小模型理论上无法处理高层次数学问题。通过调查发现,AIME 2025的部分题目与在线平台上的原题高度相似,甚至完全相同。 这些题目出现在Quora、math.stackexchange等网站上,暗示了模型可能并非从零开始解决这些问题,而是基于既有的训练数据完成了任务。这样的数据污染现象不仅影响了测试的公平性,还对当前评估AI数学能力的标准提出了挑战。
MathArena作为一个专门用于评估大模型在数学竞赛中表现的平台,尝试通过严格的标准化流程解决这一问题。该平台只在模型发布后选择未公开的题目进行测试,避免数据泄露导致的潜在偏差。 此外,每个问题会经过多次重复评估,并结合运行成本计算最终得分。然而,尽管采取了多项措施,仍然难以彻底杜绝互联网上已存在的信息干扰。这使得如何确保评估数据的纯净性成为一个长期课题。
讨论进一步延伸到AI研究的核心议题:模型是否真的能够泛化新的知识?抑或仅仅是在强化记忆方面表现优异? 数据污染问题揭示了一个更大的挑战——即使是最先进的技术,也可能因不可控的外部因素失去可信度。尤其是在依赖互联网语料库进行训练的情况下,几乎无法完全避免已有内容对新任务的影响。 因此,未来的研究方向或将聚焦于开发更高效的数据净化策略以及改进现有模型的真实推理能力。这不仅是关于数学基准测试的问题,更是人工智能领域迈向通用智能的一次重要反思。
原文和模型
【原文链接】 阅读原文 [ 1168字 | 5分钟 ]
【原文作者】 新智元
【摘要模型】 qwen-max-latest
【摘要评分】 ★☆☆☆☆