4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

AIGC动态1年前 (2024)发布 AIera

2,354 0 0

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

文章摘要

首届AI奥数竞赛结果揭晓，Numina模型以29/50的正确率荣获第一名，远超其他参赛模型。该竞赛由Kaggle社区举办，旨在提升AI模型的数学推理能力，奖金池高达1000万美元。比赛题目涵盖简单算术、代数、集合推理等方面，难度介于AMC 12和AIME之间，需要运用高中水平的数学知识。

Numina团队由四人组成，分别来自不同机构。团队成员Jia Li是Numina公司的联合创始人，Lewis Tunstall和Edward Beeching均来自Hugging Face，专注于人类反馈强化学习（RLHF）的研究。另一位成员Hélène Evain也参与了模型的开发。第二名获得者是来自CMU的博士生Zhiqing Sun（孙之清），他独立完成了比赛并答对了22道题目。

本次竞赛共有1401名参与者，1161个团队，提交了1831份模型结果。根据排名，前五名团队将获得不同数额的奖金。第一名将获得131,072美元，第二名65,536美元，第三名32,768美元，第四名16,384美元，第五名8,192美元。如果前五名团队在公开和私有测试集上的得分未能超过Gemma 7B的3/50基准，奖金将减少至原来的四分之一。

尽管GSM8K等基准测试在评估AI模型性能方面具有一定参考价值，但数据泄露问题可能影响评估的准确性。本次竞赛采用了Kaggle的私有测试集模式，共准备了110道题，包括训练集10道、公共测试集50道和私有测试集50道，以确保评估的公正性。

Numina团队表示，他们的模型并非从头开始搭建，而是在开源的LLM基础上进行微调，以提升数学推理能力。未来，他们计划公开模型、数据集和构建方法，以促进AI数学推理技术的发展。

总的来说，首届AI奥数竞赛展示了AI模型在数学推理领域的潜力，同时也暴露出现有评估方法的局限性。随着技术的不断进步，未来AI在数学领域的应用前景将更加广阔。