大招憋出来了！OpenAI发布最强推理模型o1，它真的会思考，但API比4o贵好几倍

AIGC动态1年前 (2024)发布 Founder Park

2,324 0 0

大招憋出来了！OpenAI发布最强推理模型o1，它真的会思考，但API比4o贵好几倍

文章摘要

OpenAI 近日宣布推出了备受期待的推理模型 Strawberry，即 OpenAI o1-preview，以及一个更小、成本更低的版本 o1 mini。此次发布的模型被称为“预览版”，表明 o1 仍处于早期开发阶段。OpenAI 采取了分阶段的权限开放策略，ChatGPT Plus 和 Team 用户可以立即访问这两款模型，Enterprise 和 Edu 用户将在下周获得权限，而 API 使用等级 5 的开发者则从发布之日起可以使用，但有速率限制。

o1 模型的定价相较于 GPT-4o 较高，每百万输入 token 为 15 美元，每百万输出 token 为 60 美元。OpenAI 员工对 o1 的能力表示高度赞扬，认为它重新定义了 AI 的游戏规则。o1 是 OpenAI 首个通过强化学习训练的模型，能够在回答问题前进行深入思考。这种模型不仅在定量指标上表现优异，定性上也易于理解，因为它允许用户以简单的英语“阅读模型的思维”。

o1 模型在多项基准测试中的表现超越了 GPT-4o，尤其在数学和编程领域。在国际数学奥林匹克（IMO）的资格考试中，o1 解答了 83% 的问题，远高于 GPT-4o 的 13%。在编程能力方面，o1 在 Codeforces 竞赛中的评估结果超过了 89% 的参赛者。尽管 o1 在复杂推理任务上表现出色，但它目前还不具备 ChatGPT 的一些实用功能，如网络浏览、文件上传和图像处理等。

o1 模型采用了强化学习技术，专门设计用于处理复杂的推理任务。它能够在内部进行长链条的逻辑推理和思考过程，确保回应的质量和深度。测试结果显示，o1 在物理、化学和生物学等领域的复杂基准测试中，表现堪比博士生水平。OpenAI 正在探索新的安全机会，包括可靠性、幻觉和对抗攻击者的鲁棒性。

在人类偏好评估中，o1-preview 在需要深度推理能力的领域，如数据分析、编程和数学中表现出色，而 GPT-4o 在自然语言处理任务中保持优势。这表明在选择 AI 模型时，需要根据具体任务和场景来选择最合适的工具。

o1 模型的“思维链”方法使其在生成答案时能够模仿人类的思考模式，并通过强化学习不断优化。尽管思维链具有潜在价值，但 OpenAI 决定不向用户直接展示原始思维链，以保护核心技术细节并提供更好的用户体验。

o1 模型最适合应用在科学研究、软件开发、数学计算等领域，为专业人士提供强大的智能辅助工具。例如，在医疗研究领域，生物信息学家可以利用 o1 来协助细胞测序数据的注释工作，物理学家可以借助 o1 生成复杂的数学公式，而开发者可以利用 o1 来构建和执行多步骤的工作流程。