OpenAI深夜上线o3满血版和o4 mini – 依旧领先。

1,385 0 0

文章摘要

OpenAI在直播中正式发布了o3和o4-mini模型，取代了之前的o1、o3-mini和o3-mini-high。ChatGPT Plus、Pro和Team用户从即日起可以在模型选择器中看到这些新模型。尽管o3 pro还需几周才能上线，但o3和o4-mini的发布标志着OpenAI在模型性能和多模态能力上的重大突破。o3和o4-mini首次实现了视觉推理能力，能够在思维链中处理图像，这是模型能力的一次范式级跃迁。

在性能方面，o3和o4-mini在多个数据集和任务中表现出色。o3在AIME数学竞赛中的准确率从91.6%提升至95.2%，而o4-mini在不开工具的情况下达到了93.4%，接入Python后更是飙升至98.7%。在跨学科的PhD级科学题和专家级综合测试中，o3的表现也优于o4-mini，尤其是在接入多种工具后，准确率进一步提升。多模态能力方面，o3在MMMU、MathVista和CharXiv-Reasoning数据集上的表现显著优于o1，尤其是在视觉数学推理任务中，o3将准确率提升至87.5%。

代码能力方面，o3在SWE-Lancer和SWE-Bench Verified等任务中表现优异，尤其是在多语言代码编辑基准中，o3展现了强大的代码重写和补丁修改能力。工具使用方面，o3在多轮指令跟随、浏览器任务和函数调用等场景中表现突出，尤其是在浏览器任务中，o3的表现接近专门微调的DeepResearch模型。然而，o3在幻觉率方面有所上升，达到了o1的两倍，这表明模型在准确性提升的同时，也带来了更高的不确定性。

视觉推理是o3和o4-mini的最大亮点。o3首次实现了将图像融入推理过程，能够像人类一样看图思考，这一能力在多个场景中得到了验证。例如，在猜地点游戏中，o3通过放大图片、分析细节，最终准确猜出了地点。此外，o3还能通过视觉推理辅助安全监控、设计审稿和医疗诊断，预示着这些领域将迎来重大变革。

OpenAI此次还开源了一个AI编程工具，进一步推动了AI技术的普及和应用。o3和o4-mini的发布，标志着AI在视觉推理和工具使用方面的重大突破，预示着未来AI将在更多专业场景中发挥重要作用。这一技术革新不仅提升了模型的性能，也为AI的未来发展开辟了新的方向。