
文章摘要
【关 键 词】 推理模型、视觉推理、编程工具、多模态、开源工具
OpenAI最新发布的满血版o3和o4-mini模型在多个领域展现了卓越的性能,尤其是在视觉推理和工具调用方面实现了重大突破。o3模型首次将图像推理融入思维链,能够自主调用工具,并在60秒内解决复杂问题。在编程、数学和视觉推理等基准测试中,o3刷新了SOTA(State of the Art)记录,接近“天才水平”。其算力需求是前代o1的十倍,但性能提升显著。o4-mini则以小巧高效、高性价比的特点脱颖而出,尤其在AIME 2025测试中取得了99.5%的高分,性能优于o3-mini。
这两款模型的最大亮点在于它们不仅仅是推理模型,而是完整的AI系统。它们首次被训练使用各种工具,能够在思维链中自主调用工具解决复杂问题。例如,o3在处理一个复杂任务时,连续调用了约600次工具,生成的代码片段能够直接在代码库中发挥作用。这种能力使得o3在软件工程任务中表现出色,甚至比人类开发者更高效。此外,o3和o4-mini在指令跟随和工具使用评估中的准确性也达到了最高水平。
在视觉推理方面,o3和o4-mini通过思维链中的图像推理,实现了视觉感知的重大突破。它们不仅能够处理用户上传的图像,还能进行裁剪、放大、旋转等操作,无需依赖额外的专业模型。在多项基准测试中,这两款模型的表现全面超越前代,尤其是在V*基准测试中,准确率达到了96.3%,标志着视觉推理技术的重大飞跃。
OpenAI还开源了轻量级编程AI智能体Codex CLI,旨在充分发挥o3和o4-mini的推理能力。Codex CLI允许用户在终端中运行代码,并结合多模态推理功能,能够处理屏幕截图或低保真草图,生成可执行的代码。这一工具在GitHub上发布后迅速获得了广泛关注,斩获了3.3k星。此外,OpenAI还启动了100万美元的资助计划,支持使用Codex CLI和OpenAI模型的项目。
在强化学习方面,OpenAI的研究表明,大规模强化学习依然遵循“投入越多计算资源,性能越好”的规律。通过提升训练计算量和推理阶段的思考量,o3和o4-mini在性能上取得了显著提升。尤其是在开放式场景中,它们能够灵活调用工具,处理复杂的视觉推理和多步骤工作流任务。
总体而言,o3和o4-mini不仅在推理能力上达到了新的高度,还在工具调用、视觉推理和多模态任务中展现了强大的潜力。它们的发布标志着AI技术在推理、视觉和多模态领域的重大进步,为未来的科学发现、临床决策和跨领域创新提供了强有力的支持。
原文和模型
【原文链接】 阅读原文 [ 3534字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★