文章摘要
【关 键 词】 人工智能、智商测试、编程竞赛、深度学习、推理模型
OpenAI的o3模型因其高达157的智商而受到广泛关注,这一智商水平超过了99%的人类,引发了关于人工智能发展速度和潜力的讨论。o3模型的智商是基于Codeforces编程竞赛排名评分得出的,显示其在人类中的占比仅为0.0075%。从GPT-4o到o3,模型智商的递增仅用了一年时间,显示了人工智能技术的快速进步。o3模型被认为是通过强化学习在通用领域取得的巨大进步,它在编程基准CodeForces中得分超过2700,达到了国际大师水平,并在数学基准FrontierMath中表现出色。
o3模型的核心创新在于其在token空间内自研语言程序搜索和执行的能力,这与AlphaZero的蒙特卡洛树搜索相似,本质上是一种深度学习引导的程序搜索形式。尽管o3的进化速度令人震惊,但OpenAI研究员Will depue强调,这还不是AGI(人工通用智能),我们仍有很长的路要走。
o3在ARC-AGI测试中的表现引起了争议,该测试旨在找到对人类容易但对AI困难的题目。o3在高计算模式下的得分超越了人类,但有人质疑OpenAI是否针对该任务对模型进行了特殊训练。对此,OpenAI研究员Zach Stein-Perlman反驳说,他们没有针对ARC对o3进行微调。
关于o3是否是代号为Orion的模型,有报道称Orion可能会作为o4的基础模型,而华尔街日报则称Orion是GPT-5。OpenAI研究员Jason Wei提到,从o1到o3的发展速度远快于预训练范式,显示了新范式下进展的迅速。o3的推理代价高昂,每个高计算任务的成本超过1000美金,这也是OpenAI博士级AI助手价格高昂的原因之一。
o3模型可能对编程、数学和科学领域的专业人员帮助最大,但对于普通用户可能有些“大材小用”。与此同时,谷歌等科技巨头也在推出自己的推理模型,预示着推理模型将继续进化,未来几年将充满兴奋。
原文和模型
【原文链接】 阅读原文 [ 1508字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆