陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

AIGC动态1年前 (2024)发布 AIera

2,918 0 0

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

文章摘要

【关键词】 AI推理、数学基准、FrontierMath、Moravec悖论、逻辑推理

Epoch AI联合六十余位全球数学家推出了全新的数学基准 FrontierMath，旨在评估AI系统的高级推理能力。该基准包含数百个原创且极具挑战性的数学问题，覆盖从奥赛难度到数学前沿的各个领域，包括数论、实数分析、代数几何和群论等。测试结果显示，六个前沿模型的成功率均低于2%。

FrontierMath的发布引起了AI界的广泛关注。OpenAI研究科学家Noam Brown表示，大语言模型在FrontierMath中仅能解决2%的问题，这体现了Moravec悖论，即人类认为简单的事情对计算机来说可能非常困难。Anthropic联创Jack Clark等AI大佬也参与了讨论。

FrontierMath的三个关键设计原则是：所有问题都是全新且未公开的，防止数据污染；模型的解答支持自动验证，实现高效评估；问题具有”防猜测”特性，若没有数学推理，模型猜对的几率低于1%。这弥补了现有基准测试的不足，有效杜绝了模型”作弊”的现象。

具体案例表明，FrontierMath中的问题需要模型具备涉及数论、群论、代数几何等方面的专业数学逻辑能力，才能得到正确的答案。数百道题目皆是如此，使得FrontierMath足以成为一个标杆性的数学基准，检验AI模型是否具备真正的复杂逻辑推理能力。