刚刚，o4-mini发布！OpenAI史上最强、最智能模型

1,651 0 0

文章摘要

OpenAI在技术直播中发布了其最新的多模态模型o4-mini和满血版o3，这两款模型能够同时处理文本、图像和音频，并具备调用外部工具的能力。这一创新使得模型能够处理更加复杂的任务场景，而不仅仅局限于简单的文本生成。o4-mini在AIME2024和2025测试中分别达到了93.4%和92.7%的准确率，成为目前准确率最高的模型；在Codeforces测试中达到了2700分，位列全球前200名最强程序员。o3和o4-mini的多模态推理能力是其另一大亮点，能够将不同模态的数据进行有机整合。OpenAI采用了创新的神经网络架构，使模型能够将图像和文本数据分别编码为统一的特征表示，并通过融合模块实现多模态数据的联合处理。

在训练过程中，OpenAI采用了大规模的无监督学习和少量的监督学习相结合的方式。无监督学习部分，模型通过大量的文本和图像数据进行预训练，学习到语言和图像的基本特征和模式；监督学习部分，则通过标注数据和工具使用数据，对模型进行微调，使其能够更好地理解和使用工具。o3和o4-mini在基准测试中表现非常强，不仅在AIME和Codeforces测试中取得了优异成绩，还在博士级问题解答GPQA测试中表现不俗。在多模态任务方面，o3和o4-mini在MMU Math、Vista、Charive和Vstar等多模态基准测试中同样表现出色。

在实际应用中，o3和o4-mini展示了其在科学研究和软件开发领域的巨大潜力。在科学研究领域，模型能够帮助研究人员快速分析实验数据、查阅文献并提出新的研究思路；在软件开发领域，模型能够帮助开发者快速定位和修复代码中的错误。例如，在一个物理学研究项目中，模型通过分析实验数据和查阅相关文献，成功地帮助研究人员完成了一个复杂的物理量估计任务，这一过程仅用了几分钟。在软件开发中，模型通过调用容器工具和代码分析工具，成功地定位并修复了一个复杂的错误，这一过程也仅用了几分钟。

从今天开始，ChatGPT Plus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high。ChatGPT Enterprise和Edu用户将在一周后获得访问权限，所有计划的速率限制与之前的模型保持不变。满血o3和o4-mini也通过Chat Completions API和Responses API向开发者开放，支持推理摘要功能，能够在函数调用时保留推理标记以提升性能，并且很快将支持内置工具，包括网页搜索、文件搜索和代码解释器，以增强模型的推理能力。