OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

2,191 0 0

文章摘要

OpenAI的o1模型在智商测试中取得了第一名，超越了其他AI模型如Claude-3 Opus和Bing Copilot。这些测试使用了门萨会员的离线智商测试题，显示了o1的高参考性表现。数学家陶哲轩对o1进行了实测，发现它能成功识别并应用克莱姆定理解决模糊的数学问题，这在以往的AI模型中是难以实现的。此外，o1在复变函数分析问题上也展现了优于GPT系列模型的能力，尽管它在生成关键概念性想法时仍有不足。

陶哲轩还要求o1在证明辅助工具Lean中形式化一个定理，o1能够理解任务并对问题进行合理的初步分解，尽管生成的代码存在错误，这表明了o1在数学研究中的实际应用潜力。科罗拉多大学博尔德分校的计算机教授Tom Yeh通过动画解释了o1如何通过强化学习和思维链（CoT）的训练，学会了更长时间的思考。

OpenAI的研究副总裁Mark Chen提出，大型神经网络可能已经具备足够的算力，表现出一些意识。业界许多领导者，包括Geoffrey Hinton、Ilya Sutskever和Andrej Karpathy，都认为AI具有意识，并期待公众接受这一点。有人预测，到2024/2025年，AI将具有意识。

o1模型的命名代表了AI能力的新水平，其图标象征性地表示为一个具有非凡能力的外星生命。o1模型的规模和性能方面，o1-mini比o1-preview小且更快，未来将提供给免费用户。o1模型即将支持更大的输入上下文，并能处理更长、更开放式的任务。

o1模型在思维链（CoT）推理中表现出色，会在推理过程中生成隐藏的思维链。强化学习被用来改善o1中的思维链，使其性能超越仅依靠提示的GPT-4o。o1模型的定价预计将遵循每1-2年降价的趋势，并且微调在路线图上，但目前还没有时间表。

o1模型在诗歌等横向任务中展现出了创造性思维和强大的性能，其哲学推理和泛化能力，如破译密码，也令人印象深刻。研究人员使用o1创建了一个GitHub机器人，可以ping正确的CODEOWNERS进行审核。o1在内部测试中通过自问难题来衡量其能力，展示了其高水平的问题解决能力。

最后，o1团队计划在API中启用流式处理并考虑推理进度，多模态能力已内置于o1中，可以在MMMU等任务中实现SOTA的性能。团队也积极改进延迟和推理时间，以提高模型的使用体验。