文章摘要
【关 键 词】 推理模型、性能突破、AI竞赛、成本效益、自研语言
OpenAI最近推出了其下一代推理模型o3,这是一个在多个领域刷新了现有最佳性能(SOTA)的模型。o3在数学、编程和软件工程等领域的表现超越了前代o1,特别是在AIME 2024数学竞赛评测中,o3的准确率达到了96.7%,而在博士级科学问答基准GPQA Diamond上的准确率为87.7%。在Frontier Math数学基准测试中,o3的准确率高达25.2%,这一表现远超过其他所有模型,这些模型的准确率普遍低于2%。
o3在软件工程SWE-bench Verified基准上的代码性能也从o1的48.9%提升至71.7%。在Codeforces编程竞赛中,o3的Elo得分为2727,达到了International Grandmaster的水平,相当于全球前175名人类选手。此外,o3-mini也在数学、编码和科学问答等基准上取得了新的突破,定义了新的成本效益推理前沿。
o3-mini引入了三种思考模式,可以根据任务的复杂性调整推理深度,实现快速响应简单任务和深度思考复杂问题。在Codeforces测试中,o3-mini的Elo评分随着思考时间的增加而提升,其中中等强度思考模式下的性能已经超越了满血版o1。
在ARC-AGI基准测试中,o3在低计算模式下得分为75.7%,在高计算模式下得分为87.5%,接近人类水平的表现。这一成绩标志着AI能力相比之前的限制实现了质的飞跃,尽管成本较高,但o3的性能不仅仅是通过暴力计算得来的,而是架构上的真正突破。
尽管o3在ARC-AGI基准测试中取得了显著成绩,但它并不是通用人工智能(AGI)的试金石,而是一种研究工具,聚焦于AI领域中最具挑战性的未解决问题。o3在简单任务上的表现仍然不佳,显示了它与人类智能之间的根本性差异。未来的ARC-AGI-2基准测试对o3来说,仍将是一个重大挑战。o3的成功在于其核心创新,即在token空间内实现自研语言程序搜索和执行,这可能与AlphaZero的蒙特卡洛树搜索相似。尽管o3取得了突破,但它仍然存在限制,包括生成自然语言指令而非可执行程序,以及依赖专家标注的CoT数据。尽管如此,o3的表现证实了直觉引导的测试时搜索的巨大潜力,并为未来AGI的探索指明了方向。
原文和模型
【原文链接】 阅读原文 [ 3716字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★