让奥特曼直呼“天才”的o3 和 o4-mini,被曝捏造事实问题严重!拓展强化学习、图像思维链等亮点成陪衬?

AIGC动态2天前发布 ai-front
113 0 0
让奥特曼直呼“天才”的o3 和 o4-mini,被曝捏造事实问题严重!拓展强化学习、图像思维链等亮点成陪衬?

 

文章摘要


【关 键 词】 人工智能模型升级工具调用推理能力多模态

OpenAI 最新发布了 OpenAI o3o4-mini 模型,标志着 ChatGPT 能力的一次飞跃。这些模型首次实现了自主调用并整合 ChatGPT 内的全量工具,包括网页搜索、Python 分析、深度视觉推理和图像生成。关键突破在于,模型能够自主判断何时及如何运用工具,在解决复杂问题时以恰当的格式输出缜密详尽的解答。 OpenAI 认为,这些模型是其迄今为止最智能的版本,适用于从普通用户到高级研究人员的广泛群体,标志着 ChatGPT 向自主代理形态迈进。

o3 是 OpenAI 目前最强大的推理模型,在编程、数学、科学、视觉感知等多个领域均达到了前沿水平,并在多个基准测试中刷新了最新的 SOTA(State of the Art)。o3 特别适用于需要多方面分析、答案并非一目了然的复杂问题,尤其在图像、图表和图形等视觉任务中的表现尤为出色。 在外部专家的评估中,o3 在面对复杂的现实任务时,重大错误相较前代模型减少了 20%。o4-mini 则是一个更小巧的模型,专为快速、成本高效的推理任务优化,擅长处理数学、编程和视觉任务,并在 AIME 2024 和 2025 年测试中表现最佳。

在开发过程中,OpenAI 观察到大规模强化学习展现出了与 GPT 系列预训练相同的趋势:“更多算力 = 更好性能”。通过提升训练算力和 inference-time,模型的表现显著提升,验证了“思考时间”的增加确实能带来性能增益。此外,OpenAI 通过强化学习训练让模型学会了如何判断在什么情况下使用工具,这种能力在涉及视觉推理和多步骤流程的任务中尤为适用。

新模型还首次实现了将图像直接融入思维链的能力,它们不仅是“看见”图像,而是“带着图像去思考”,能够将视觉和文本推理深度融合。 用户可以上传白板照片、教科书插图或手绘草图,即使图像模糊或质量较差,模型也能理解并动态操作图像。然而,该功能仍存在推理链过长、感知错误和可靠性问题等限制。

OpenAI 还发布了 Codex CLI,这是一个可以直接在终端运行的轻量级编码智能体,专为充分发挥 o3 和 o4-mini 等模型的推理能力而设计。Codex CLI 允许用户在命令行中利用多模态推理的优势,结合本地代码访问,实现强大的开发辅助功能。 此外,OpenAI 启动了一项 100 万美元的支持计划,资助那些使用 Codex CLI 和 OpenAI 模型的项目。

尽管新模型在发布后获得了广泛称赞,但也有用户反馈模型存在“捏造事实”的情况。例如,模型在回答技术性问题时,会凭空猜测细节并使用这些信息,最终给出错误答案。 此外,模型在编程任务中犯错后,无法从错误中吸取教训,导致用户浪费大量时间寻找错误原因。尽管如此,部分用户对模型的表现给予了正向反馈,认为其具备一些非常有意思的新能力。

总体而言,OpenAI o3 和 o4-mini 在智能程度和成本效益上均优于前代模型,但在实际应用中仍存在一些可靠性问题,尤其是在处理复杂任务时。未来,随着技术的进一步优化,这些模型有望在更多场景中发挥其潜力。

原文和模型


【原文链接】 阅读原文 [ 3611字 | 15分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...