
文章摘要
【关 键 词】 AI模型、推理能力、多模态、工具使用、成本效益
OpenAI近期发布了两个新模型o3和o4-mini,标志着其在人工智能领域的进一步突破。这两个模型不仅在编码、数学、科学等传统领域展现出强大的推理能力,还首次实现了“用图像思考”的功能。o3被定位为OpenAI当前最强大的推理引擎,尤其在处理复杂查询和需要深度思考的任务时表现突出。根据外部评估,o3在处理现实世界任务时的严重错误率比前代模型减少了20%,在编程、商业咨询和创意构思方面进步显著。例如,o3能够分析物理学研究海报并推断出未明确说明的结果,甚至解决了构造特定性质的19次多项式这样的高难度数学问题。
o4-mini则是一款针对速度和成本效益优化的模型,尽管体量较小,但在数学、编码和视觉任务上实现了令人瞩目的性能。它在AIME数学竞赛基准上的表现甚至超越了更大的模型,并且在非STEM领域和数据科学方面也优于其前代。o4-mini的高效率使其非常适合需要进行大量推理和高吞吐量的应用场景。OpenAI强调,智能化程度的提升并未必然带来成本的增加,o3和o4-mini在许多实际应用场景中可能比前代模型更高效,甚至更便宜。
本次发布的亮点之一是Agentic Tool Use,即模型能够主动、智能地使用和组合工具来解决复杂问题。o3和o4-mini可以根据问题的复杂性,自主决定调用网页搜索、运行Python代码、理解用户上传的图片内容,甚至生成图表或图像来辅助说明。例如,当用户提出关于加州夏季能源消耗的问题时,模型会自动搜索公共数据源,结合实时信息编写并执行分析代码,生成图表直观展示对比结果,并解释其中的关键影响因素。
另一个突破是视觉理解能力,o3和o4-mini不再仅仅是“看到”图片,而是能将图像信息直接整合进它们的“思考链”中。用户可以上传白板照片、教科书图解、手绘草图,即使图片模糊、颠倒或质量不高,模型也能尝试理解。结合工具使用能力,模型可以在推理过程中动态地操作图片,以更好地辅助分析。这使得它们在多模态基准测试中达到了新的SOTA水平,能够解决以前难以处理的视觉推理问题。
在安全方面,OpenAI为o3和o4-mini彻底重建了安全训练数据集,特别加强了在生物风险、恶意软件生成、越狱企图等敏感领域的拒绝能力。此外,还部署了系统级防护,引入了一个基于人类可解释规范训练的推理LLM监控器,用于主动标记生物风险等前沿风险领域的危险提示。
为了进一步赋能开发者社区,OpenAI还推出了一个名为Codex CLI的实验性新工具。这是一个轻量级的编码助手,可以直接在用户的终端命令行运行,旨在充分发挥o3、o4-mini等模型强大的推理能力,连接本地代码环境,甚至支持处理截图或草图进行多模态编程。
总体来看,OpenAI发布的o3和o4-mini在Agentic能力和多模态深度融合方面继续迈近,这不仅仅是模型变得更聪明了,更是朝着能够真正理解并与我们复杂世界进行交互的“通用智能体”的一步。从发布节奏来看,OpenAI的再次提速,留给竞争对手和整个行业思考的时间,似乎又变少了。
原文和模型
【原文链接】 阅读原文 [ 2615字 | 11分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★