OpenAI震撼发布o3/o4-mini，直逼视觉推理巅峰！首用图像思考，十倍算力爆表

1,277 0 0

文章摘要

OpenAI最新发布的满血版o3和o4-mini模型在多个领域展现了卓越的性能，尤其是在视觉推理和工具调用方面实现了重大突破。o3模型首次将图像推理融入思维链，能够自主调用工具，并在60秒内解决复杂问题。在编程、数学和视觉推理等基准测试中，o3刷新了SOTA（State of the Art）记录，接近“天才水平”。其算力需求是前代o1的十倍，但性能提升显著。o4-mini则以小巧高效、高性价比的特点脱颖而出，尤其在AIME 2025测试中取得了99.5%的高分，性能优于o3-mini。

这两款模型的最大亮点在于它们不仅仅是推理模型，而是完整的AI系统。它们首次被训练使用各种工具，能够在思维链中自主调用工具解决复杂问题。例如，o3在处理一个复杂任务时，连续调用了约600次工具，生成的代码片段能够直接在代码库中发挥作用。这种能力使得o3在软件工程任务中表现出色，甚至比人类开发者更高效。此外，o3和o4-mini在指令跟随和工具使用评估中的准确性也达到了最高水平。

在视觉推理方面，o3和o4-mini通过思维链中的图像推理，实现了视觉感知的重大突破。它们不仅能够处理用户上传的图像，还能进行裁剪、放大、旋转等操作，无需依赖额外的专业模型。在多项基准测试中，这两款模型的表现全面超越前代，尤其是在V*基准测试中，准确率达到了96.3%，标志着视觉推理技术的重大飞跃。

OpenAI还开源了轻量级编程AI智能体Codex CLI，旨在充分发挥o3和o4-mini的推理能力。Codex CLI允许用户在终端中运行代码，并结合多模态推理功能，能够处理屏幕截图或低保真草图，生成可执行的代码。这一工具在GitHub上发布后迅速获得了广泛关注，斩获了3.3k星。此外，OpenAI还启动了100万美元的资助计划，支持使用Codex CLI和OpenAI模型的项目。

在强化学习方面，OpenAI的研究表明，大规模强化学习依然遵循“投入越多计算资源，性能越好”的规律。通过提升训练计算量和推理阶段的思考量，o3和o4-mini在性能上取得了显著提升。尤其是在开放式场景中，它们能够灵活调用工具，处理复杂的视觉推理和多步骤工作流任务。

总体而言，o3和o4-mini不仅在推理能力上达到了新的高度，还在工具调用、视觉推理和多模态任务中展现了强大的潜力。它们的发布标志着AI技术在推理、视觉和多模态领域的重大进步，为未来的科学发现、临床决策和跨领域创新提供了强有力的支持。