OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

2,280 0 0

文章摘要

OpenAI在技术直播的最后一天发布了预览版模型o3，该模型在多个测试中表现出色。在AIME数学竞赛中，o3得分96.7分，仅错一题，达到了顶级数学家的水平。在ARCAGI测试中，o3在低算力下达到75.7%，在增加计算资源后达到87.5%，首次超过人类85%的水平。o3在软件风格基准测试中准确率达到71.7%，提升了20%以上。在CodeForces竞赛编码网站上，o3的ELO分数达到2727，远超o1模型的1891分。在Amy考试中，o3的准确率为96.7%，o1模型为83.3%。在GPQADiamond基准测试中，o3准确率为87.7%，比o1模型提高了约10%。o3在ARCAGI基准测试中取得了重大突破，低计算条件下得分75.7，提升计算能力后得分87.5%，超过人类表现阈值85%。o3Mini模型在性能与成本平衡方面表现出色，在编码评估方面随着思考时间的增加，性能不断提升，超越了o1Mini模型。在中位思考时间下，o3Mini的性能甚至优于o1模型，能够以更低的成本提供相当甚至更好的代码性能。在数学能力测试中，o3Mini模型在2024年数据集上表现出色。o3Mini模型支持函数调用、结构化输出、开发者消息等一系列功能，与O1模型相当。在现场演示中，o3Mini模型的强大功能得到了直观展示。o3 Mini模型率先开放给外部安全研究人员进行测试，随后o3模型也将参与其中。