OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

2,084 0 0

文章摘要

OpenAI最近推出了其下一代推理模型o3，这是一个在多个领域刷新了现有最佳性能（SOTA）的模型。o3在数学、编程和软件工程等领域的表现超越了前代o1，特别是在AIME 2024数学竞赛评测中，o3的准确率达到了96.7%，而在博士级科学问答基准GPQA Diamond上的准确率为87.7%。在Frontier Math数学基准测试中，o3的准确率高达25.2%，这一表现远超过其他所有模型，这些模型的准确率普遍低于2%。

o3在软件工程SWE-bench Verified基准上的代码性能也从o1的48.9%提升至71.7%。在Codeforces编程竞赛中，o3的Elo得分为2727，达到了International Grandmaster的水平，相当于全球前175名人类选手。此外，o3-mini也在数学、编码和科学问答等基准上取得了新的突破，定义了新的成本效益推理前沿。

o3-mini引入了三种思考模式，可以根据任务的复杂性调整推理深度，实现快速响应简单任务和深度思考复杂问题。在Codeforces测试中，o3-mini的Elo评分随着思考时间的增加而提升，其中中等强度思考模式下的性能已经超越了满血版o1。

在ARC-AGI基准测试中，o3在低计算模式下得分为75.7%，在高计算模式下得分为87.5%，接近人类水平的表现。这一成绩标志着AI能力相比之前的限制实现了质的飞跃，尽管成本较高，但o3的性能不仅仅是通过暴力计算得来的，而是架构上的真正突破。

尽管o3在ARC-AGI基准测试中取得了显著成绩，但它并不是通用人工智能（AGI）的试金石，而是一种研究工具，聚焦于AI领域中最具挑战性的未解决问题。o3在简单任务上的表现仍然不佳，显示了它与人类智能之间的根本性差异。未来的ARC-AGI-2基准测试对o3来说，仍将是一个重大挑战。o3的成功在于其核心创新，即在token空间内实现自研语言程序搜索和执行，这可能与AlphaZero的蒙特卡洛树搜索相似。尽管o3取得了突破，但它仍然存在限制，包括生成自然语言指令而非可执行程序，以及依赖专家标注的CoT数据。尽管如此，o3的表现证实了直觉引导的测试时搜索的巨大潜力，并为未来AGI的探索指明了方向。