大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍
文章摘要
【关 键 词】 推理模型、强化学习、AI游戏规则、复杂推理、智能辅助
OpenAI 近日宣布推出了备受期待的推理模型 Strawberry,即 OpenAI o1-preview,以及一个更小、成本更低的版本 o1 mini。此次发布的模型被称为“预览版”,表明 o1 仍处于早期开发阶段。OpenAI 采取了分阶段的权限开放策略,ChatGPT Plus 和 Team 用户可以立即访问这两款模型,Enterprise 和 Edu 用户将在下周获得权限,而 API 使用等级 5 的开发者则从发布之日起可以使用,但有速率限制。
o1 模型的定价相较于 GPT-4o 较高,每百万输入 token 为 15 美元,每百万输出 token 为 60 美元。OpenAI 员工对 o1 的能力表示高度赞扬,认为它重新定义了 AI 的游戏规则。o1 是 OpenAI 首个通过强化学习训练的模型,能够在回答问题前进行深入思考。这种模型不仅在定量指标上表现优异,定性上也易于理解,因为它允许用户以简单的英语“阅读模型的思维”。
o1 模型在多项基准测试中的表现超越了 GPT-4o,尤其在数学和编程领域。在国际数学奥林匹克(IMO)的资格考试中,o1 解答了 83% 的问题,远高于 GPT-4o 的 13%。在编程能力方面,o1 在 Codeforces 竞赛中的评估结果超过了 89% 的参赛者。尽管 o1 在复杂推理任务上表现出色,但它目前还不具备 ChatGPT 的一些实用功能,如网络浏览、文件上传和图像处理等。
o1 模型采用了强化学习技术,专门设计用于处理复杂的推理任务。它能够在内部进行长链条的逻辑推理和思考过程,确保回应的质量和深度。测试结果显示,o1 在物理、化学和生物学等领域的复杂基准测试中,表现堪比博士生水平。OpenAI 正在探索新的安全机会,包括可靠性、幻觉和对抗攻击者的鲁棒性。
在人类偏好评估中,o1-preview 在需要深度推理能力的领域,如数据分析、编程和数学中表现出色,而 GPT-4o 在自然语言处理任务中保持优势。这表明在选择 AI 模型时,需要根据具体任务和场景来选择最合适的工具。
o1 模型的“思维链”方法使其在生成答案时能够模仿人类的思考模式,并通过强化学习不断优化。尽管思维链具有潜在价值,但 OpenAI 决定不向用户直接展示原始思维链,以保护核心技术细节并提供更好的用户体验。
o1 模型最适合应用在科学研究、软件开发、数学计算等领域,为专业人士提供强大的智能辅助工具。例如,在医疗研究领域,生物信息学家可以利用 o1 来协助细胞测序数据的注释工作,物理学家可以借助 o1 生成复杂的数学公式,而开发者可以利用 o1 来构建和执行多步骤的工作流程。
原文和模型
【原文链接】 阅读原文 [ 5427字 | 22分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★