谷歌AI解决IMO中84%的几何问题,o1一道没做对!Nature:AI已超过金牌得主平均水平

AIGC动态7小时前发布 QbitAI
23 0 0
谷歌AI解决IMO中84%的几何问题,o1一道没做对!Nature:AI已超过金牌得主平均水平

 

文章摘要


【关 键 词】 数学AI几何问题AlphaGeometry2DeepMindIMO竞赛

谷歌DeepMind的最新数学AI系统AlphaGeometry2在解决国际数学奥林匹克竞赛(IMO)几何问题上取得了显著进展,成功解决了2000年至2024年间的84%几何问题,完成了50道题目中的42道,远超去年的第一代系统。这一表现使其达到金牌得主水平,与顶级人类选手相当。例如,在2024年IMO竞赛的第四题中,系统通过构造辅助线和利用相似三角形快速完成证明,仅用时19秒。更复杂的IMO Shortlist 2009问题也得到了优雅解决,其辅助结构完全由神经网络预测生成。

AlphaGeometry2的核心进步得益于四大关键升级。首先,扩展了几何领域的专用语言,将谓词覆盖率从66%提升至88%,从而涵盖更多几何问题类型,如线性方程和角度计算等。其次,全新的符号推理引擎DDAR2实现了显著优化,通过硬编码关键规则和算法改写,时间复杂度大幅降低,推理速度提高了300倍。第三,引入了SKEST搜索算法,利用多棵并行运行的搜索树通过知识共享机制高效探索证明路径。最后,采用了最新的Gemini架构作为语言模型,并得出结论:视觉信息和图示对解决几何问题作用有限,重点在于代数推理能力。

系统的设计体现了领域专用语言和推理引擎的强大结合。自动生成形式化描述和示意图的能力使其适用于大多数IMO几何问题,但对于涉及3D几何或非线性方程的少数问题仍无法处理。此外,尽管AlphaGeometry2已具备获得AIMO竞赛金牌的实力,但由于不开源,尚不符合500万美元奖金的获取条件。这为其他团队提供了进一步探索的空间。研究结果还表明,分词器设计和训练数据的选择并非决定性因素,而多模态模型的效果则需结合知识共享机制才能显现优势。

展望未来,AlphaGeometry2的成功展示了AI在高难度数学问题上的潜力,同时也指出了在更复杂数学领域拓展的可能性。2025年的IMO竞赛将于澳大利亚举行,这将是检验AI系统实际表现的重要机会。随着技术的不断进步,未来的数学AI或许能够在更多数学分支中实现突破,为科学和技术的发展注入新动力。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1239字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 qwen-max-latest
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...