GPT 未竟的革命，由 o1 接棒：或是 LLM 研究最重要的发现

AIGC动态1年前 (2024)发布 aitechtalk

1,878 0 0

文章摘要

OpenAI近期推出了o1系列，标志着其在人工智能领域的又一次重大突破。o1系列在处理复杂推理任务方面表现出色，其在国际数学奥林匹克（IMO）资格考试中的正确解决率高达83%，相较于GPT-4o的13%有了显著提升。这一进步被认为是自Scaling Law提出以来，大型语言模型（LLM）领域最重要的发现之一，其核心在于推理时间和参数规模的协同作用。

o1系列包含三个型号：尚未发布的完整版o1、预览版o1-preview和性价比较高的轻量版o1-mini。OpenAI的联合创始人Greg Brockman在推特上赞扬了o1的性能，指出它是首个使用强化学习训练的模型，能够在回答问题前进行深入思考。lmsys在Chatbot Arena上更新了o1-preview和o1-mini，供公众测试。

尽管o1在推理方面取得了显著进步，但它并非GPT-4o的升级版，仍然无法解决如黎曼假设这样的复杂问题，也未能完全解决幻觉问题。OpenAI对o1的重新构想预示着大模型未来的发展和AI领域的新格局。

o1系列的成功也引发了关于大模型与强化学习结合的讨论。这种结合被认为能够推动人工智能的发展，通过强化学习，o1能够进行真正的“思考”，从而突破预训练的限制，进行扩展推理计算。然而，也有批评声音指出o1的局限性，如在处理某些复杂问题时的逃避行为，以及与通用人工智能（AGI）之间的差距。

在实际测试中，o1的表现令人印象深刻。在ProLLM StackUnseen基准测试中，o1模型的水平比现有最佳水平高出20%。o1-preview能够解决许多难以回答的问题，包括一些大型语言模型难以处理的数学问题。OpenAI首席研究官Bob McGrew在采访中表示，o1是一种新的模型模式，能够解决真正困难的问题，达到与人类相似的智能水平。

尽管o1在某些方面仍有不足，如在自然语言任务测试中的写作能力不如GPT-4o，但它的推出无疑为AI领域带来了新的活力和研究方向。OpenAI表示将分别研发升级o1和GPT-4o，这意味着未来的Prompt技巧可能需要针对不同的模型进行调整。随着o1系列的进一步发展，我们有理由期待它在未来能够带来更加惊人的成就。