让奥特曼直呼“天才”的o3 和 o4-mini，被曝捏造事实问题严重！拓展强化学习、图像思维链等亮点成陪衬？

1,010 0 0

文章摘要

OpenAI 最新发布了 OpenAI o3 和 o4-mini 模型，标志着 ChatGPT 能力的一次飞跃。这些模型首次实现了自主调用并整合 ChatGPT 内的全量工具，包括网页搜索、Python 分析、深度视觉推理和图像生成。关键突破在于，模型能够自主判断何时及如何运用工具，在解决复杂问题时以恰当的格式输出缜密详尽的解答。 OpenAI 认为，这些模型是其迄今为止最智能的版本，适用于从普通用户到高级研究人员的广泛群体，标志着 ChatGPT 向自主代理形态迈进。

o3 是 OpenAI 目前最强大的推理模型，在编程、数学、科学、视觉感知等多个领域均达到了前沿水平，并在多个基准测试中刷新了最新的 SOTA（State of the Art）。o3 特别适用于需要多方面分析、答案并非一目了然的复杂问题，尤其在图像、图表和图形等视觉任务中的表现尤为出色。 在外部专家的评估中，o3 在面对复杂的现实任务时，重大错误相较前代模型减少了 20%。o4-mini 则是一个更小巧的模型，专为快速、成本高效的推理任务优化，擅长处理数学、编程和视觉任务，并在 AIME 2024 和 2025 年测试中表现最佳。

在开发过程中，OpenAI 观察到大规模强化学习展现出了与 GPT 系列预训练相同的趋势：“更多算力 = 更好性能”。通过提升训练算力和 inference-time，模型的表现显著提升，验证了“思考时间”的增加确实能带来性能增益。此外，OpenAI 通过强化学习训练让模型学会了如何判断在什么情况下使用工具，这种能力在涉及视觉推理和多步骤流程的任务中尤为适用。

新模型还首次实现了将图像直接融入思维链的能力，它们不仅是“看见”图像，而是“带着图像去思考”，能够将视觉和文本推理深度融合。 用户可以上传白板照片、教科书插图或手绘草图，即使图像模糊或质量较差，模型也能理解并动态操作图像。然而，该功能仍存在推理链过长、感知错误和可靠性问题等限制。

OpenAI 还发布了 Codex CLI，这是一个可以直接在终端运行的轻量级编码智能体，专为充分发挥 o3 和 o4-mini 等模型的推理能力而设计。Codex CLI 允许用户在命令行中利用多模态推理的优势，结合本地代码访问，实现强大的开发辅助功能。 此外，OpenAI 启动了一项 100 万美元的支持计划，资助那些使用 Codex CLI 和 OpenAI 模型的项目。

尽管新模型在发布后获得了广泛称赞，但也有用户反馈模型存在“捏造事实”的情况。例如，模型在回答技术性问题时，会凭空猜测细节并使用这些信息，最终给出错误答案。 此外，模型在编程任务中犯错后，无法从错误中吸取教训，导致用户浪费大量时间寻找错误原因。尽管如此，部分用户对模型的表现给予了正向反馈，认为其具备一些非常有意思的新能力。

总体而言，OpenAI o3 和 o4-mini 在智能程度和成本效益上均优于前代模型，但在实际应用中仍存在一些可靠性问题，尤其是在处理复杂任务时。未来，随着技术的进一步优化，这些模型有望在更多场景中发挥其潜力。