如何理解 OpenAI o3 ?以及对其的技术分析
文章摘要
【关 键 词】 O3模型、能力超越、推理成本、多路推理、技术发展
O3作为OpenAI的新一代模型,继承自O1,其命名跳过O2是为避免与同名公司混淆。尽管O3并非AGI,但其能力在某些方面已超越人类,这一点从ChatGPT 3.5延续至今,且LLM能处理的事务越来越多。关于O3的详细信息,Arc Prize的报告提供了最多可信资料。O3模型针对特定测试集进行了优化,但高计算模式的定价尚未确定,可能基于token数量进行线性推断。O3的样本大小具体含义不明,但已知低计算模式对应6,高计算模式对应1024。预计O3正式版在能力和成本上都会有显著提升。
O3的能力与人类不同,能完成一些人类难以胜任的工作,但也存在许多简单问题难以解决。公众对O3能力的挑战在于理解测试难度。例如,FrontierMath测试中O3的成绩从2%提升到25.2%,显示了O3在某些方面的能力远超公众想象,尽管在其他问题上仍无能为力。理解O1的优势和O1 Pro Mode的具体提升也是困难的。
技术分析方面,O3的推理成本在3个月内增加了2-3个数量级,显示出软件领域的快速进步。O3可能采用了多路推理,与单路推理相比,多路推理能快速增加推理规模。从O1到O3的转变中,O1可能使用的是单路推理,而O3可能采用了多路推理。O1的两个未解之谜包括API不能控制temperature和reasoning token总是64的倍数。
多路推理方式的推测包括多路采样和简单的多路结果归并,Beam Search类方法,以及从单路开始的多层次分叉方式。跨领域泛化的免费午餐仍然存在,O1在数学推理上的合成数据只是该方向的一个简单应用。
评论与展望部分,O3的发布表明LLM尚未撞墙,新技术方案的出现使得整体发展持续。OpenAI内部可能有多线探索,O系列模型已表现出短期价值,而GPT-5持续难产。技术发展路径不以人的意志为转移,O系列模型可能是OpenAI在GPT-4之后的下一个突破。Ilya Sutskever提到合成数据与推理时计算是下一步的两个高价值方向。推理成本的快速增长是一个问题,但优化推理速度和降低成本是人类擅长的领域,预计未来几年内会有快速发展。O系列模型与Agent的关系也在讨论之中,O3采用多路推理后更接近传统意义上的Agent。
原文和模型
【原文链接】 阅读原文 [ 4414字 | 18分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★