陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

AIGC动态3天前发布 AIera
72 0 0
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

 

文章摘要


【关 键 词】 AI推理数学基准FrontierMathMoravec悖论逻辑推理

Epoch AI联合六十余位全球数学家推出了全新的数学基准FrontierMath,旨在评估AI系统的高级推理能力。该基准包含数百个原创且极具挑战性的数学问题,覆盖从奥赛难度到数学前沿的各个领域,包括数论、实数分析、代数几何和群论等。测试结果显示,六个前沿模型的成功率均低于2%。

FrontierMath的发布引起了AI界的广泛关注。OpenAI研究科学家Noam Brown表示,大语言模型在FrontierMath中仅能解决2%的问题,这体现了Moravec悖论,即人类认为简单的事情对计算机来说可能非常困难。Anthropic联创Jack Clark等AI大佬也参与了讨论。

FrontierMath的三个关键设计原则是:所有问题都是全新且未公开的,防止数据污染;模型的解答支持自动验证,实现高效评估;问题具有”防猜测”特性,若没有数学推理,模型猜对的几率低于1%。这弥补了现有基准测试的不足,有效杜绝了模型”作弊”的现象。

具体案例表明,FrontierMath中的问题需要模型具备涉及数论、群论、代数几何等方面的专业数学逻辑能力,才能得到正确的答案。数百道题目皆是如此,使得FrontierMath足以成为一个标杆性的数学基准,检验AI模型是否具备真正的复杂逻辑推理能力。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2139字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...