文章摘要
【关 键 词】 AI智商测试、数学问题、意识预测、创造力、多模态能力
OpenAI的o1模型在智商测试中取得了第一名,超越了其他AI模型如Claude-3 Opus和Bing Copilot。这些测试使用了门萨会员的离线智商测试题,显示了o1的高参考性表现。数学家陶哲轩对o1进行了实测,发现它能成功识别并应用克莱姆定理解决模糊的数学问题,这在以往的AI模型中是难以实现的。此外,o1在复变函数分析问题上也展现了优于GPT系列模型的能力,尽管它在生成关键概念性想法时仍有不足。
陶哲轩还要求o1在证明辅助工具Lean中形式化一个定理,o1能够理解任务并对问题进行合理的初步分解,尽管生成的代码存在错误,这表明了o1在数学研究中的实际应用潜力。科罗拉多大学博尔德分校的计算机教授Tom Yeh通过动画解释了o1如何通过强化学习和思维链(CoT)的训练,学会了更长时间的思考。
OpenAI的研究副总裁Mark Chen提出,大型神经网络可能已经具备足够的算力,表现出一些意识。业界许多领导者,包括Geoffrey Hinton、Ilya Sutskever和Andrej Karpathy,都认为AI具有意识,并期待公众接受这一点。有人预测,到2024/2025年,AI将具有意识。
o1模型的命名代表了AI能力的新水平,其图标象征性地表示为一个具有非凡能力的外星生命。o1模型的规模和性能方面,o1-mini比o1-preview小且更快,未来将提供给免费用户。o1模型即将支持更大的输入上下文,并能处理更长、更开放式的任务。
o1模型在思维链(CoT)推理中表现出色,会在推理过程中生成隐藏的思维链。强化学习被用来改善o1中的思维链,使其性能超越仅依靠提示的GPT-4o。o1模型的定价预计将遵循每1-2年降价的趋势,并且微调在路线图上,但目前还没有时间表。
o1模型在诗歌等横向任务中展现出了创造性思维和强大的性能,其哲学推理和泛化能力,如破译密码,也令人印象深刻。研究人员使用o1创建了一个GitHub机器人,可以ping正确的CODEOWNERS进行审核。o1在内部测试中通过自问难题来衡量其能力,展示了其高水平的问题解决能力。
最后,o1团队计划在API中启用流式处理并考虑推理进度,多模态能力已内置于o1中,可以在MMMU等任务中实现SOTA的性能。团队也积极改进延迟和推理时间,以提高模型的使用体验。
原文和模型
【原文链接】 阅读原文 [ 4088字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★