OpenAI发布o3，更强也更贵了，仨月更新一代只为证明AGI还有戏

2,122 0 0

文章摘要

OpenAI在“12 Days of OpenAI”活动的最后一天宣布了其推理模型系列的最新旗舰成员：o3和o3 mini。这两款模型在性能上取得了重大突破，特别是在编程和数学领域。o3在编程能力上，在HumanEval-Verified中以71.7%的准确率刷新记录，而在数学推理上，在美国数学奥林匹克考试（AIME）中获得96.7%的准确率，显著超过人类专家平均水平。o3还在Epic AI的前沿数学基准测试中，以超过25%的准确率展现了强大的数学推理能力。更令人惊喜的是，o3在Arc AGI测试中实现了历史性突破，准确率达到75.7%至87.5%，首次超越了人类表现。

o3 mini则在性能与成本之间取得了平衡，继承了o1 mini的优势，并在性价比上实现了突破。其“自适应思考时间”功能允许用户根据任务复杂度调整模型的思考时间。o3 mini在中等推理时间下性能已超越o1，而成本和延迟仅为其一小部分。

OpenAI计划在2025年1月底发布o3 mini，随后推出完整版o3。o3和o3 mini引入了全新的深度对齐技术，提升了模型对潜在不安全请求的识别能力。在o3 mini的官宣过程中，华人研究员Hongyu Ren、Kevin Lu和Shengjia Zhao等在模型训练中扮演了重要角色。

OpenAI的战略转向表明，公司正从传统的GPT大语言模型转向“o”系列推理模型，以应对AI技术的新发展路径。这一转变可能是为了突破当前技术瓶颈，寻找实现更高水平智能的突破口。推理能力正成为行业发展的新焦点，如何将其与通用大语言模型有机结合，可能是下一阶段AI竞争的核心方向。