OpenAI o1是真有实力！港大权威AB测试，国家队奥数题照样拿下

2,054 0 0

文章摘要

香港大学研究人员对OpenAI的Orion-1（o1）模型进行了严格的AB测试，以评估其数学推理能力。研究者通过比较o1在国际数学奥林匹克（IMO）和中国国家队训练营（CNT）试题上的表现，得出结论o1确实具备数学推理能力。o1采用强化学习训练，模拟推理和反思过程，其推理过程本质上是制定和执行计划。

研究者编译了两个数据集进行分析，一个包含过去十年IMO的60个问题，另一个包含CNT的60个非公开问题。测试假设o1-mini的问题解决能力基于推理能力，而非记忆或模仿。实验中，将PDF格式的题目转换为latex文件供o1读取处理。评分采用IMO或CNT的标准评分方法，强调推理步骤的精确性和逻辑性。

评估发现，o1-mini在提供严格证明步骤方面存在困难，更倾向于”试错法”。因此，评估标准调整为侧重评估模型展示正确直觉并通过推理得出正确结果的能力。新标准将问题分为搜索类型和解决类型。评分由精通相关数学领域的人工评估员负责，确保评估结果的透明度和可访问性。

实验结果表明，o1-mini在IMO和CNT数据集上的性能没有统计学上的显著差异，表明其能力源于推理而非记忆。o1通常以叙述风格编写思维过程，以数学严谨的语言编写最终解决方案。但在某些情况下，o1-mini在最终解决方案中存在逻辑错误。

案例研究表明，o1-mini在某些问题中提供了有用的直觉和正确答案，但在推理过程中存在疏忽，缺乏强大的空间推理能力。与人类相比，o1-mini缺乏解决问题的策略，可能是由于缺乏公式化的分步方法或确定最有效算法的规则。