OpenAI甩王炸!发布新模型o3,一夜再次改变世界!

AIGC动态1天前发布 AIGCOPEN
22 0 0
OpenAI甩王炸!发布新模型o3,一夜再次改变世界!

 

文章摘要


【关 键 词】 AI模型数学竞赛性能提升编码测试基准测试

OpenAI在技术直播的最后一天发布了预览版模型o3,该模型在多个测试中表现出色。在AIME数学竞赛中,o3得分96.7分,仅错一题,达到了顶级数学家的水平。在ARCAGI测试中,o3在低算力下达到75.7%,在增加计算资源后达到87.5%,首次超过人类85%的水平。o3在软件风格基准测试中准确率达到71.7%,提升了20%以上。在CodeForces竞赛编码网站上,o3的ELO分数达到2727,远超o1模型的1891分。在Amy考试中,o3的准确率为96.7%,o1模型为83.3%。在GPQADiamond基准测试中,o3准确率为87.7%,比o1模型提高了约10%。o3在ARCAGI基准测试中取得了重大突破,低计算条件下得分75.7,提升计算能力后得分87.5%,超过人类表现阈值85%。o3Mini模型在性能与成本平衡方面表现出色,在编码评估方面随着思考时间的增加,性能不断提升,超越了o1Mini模型。在中位思考时间下,o3Mini的性能甚至优于o1模型,能够以更低的成本提供相当甚至更好的代码性能。在数学能力测试中,o3Mini模型在2024年数据集上表现出色。o3Mini模型支持函数调用、结构化输出、开发者消息等一系列功能,与O1模型相当。在现场演示中,o3Mini模型的强大功能得到了直观展示。o3 Mini模型率先开放给外部安全研究人员进行测试,随后o3模型也将参与其中。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1276字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...