OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

AIGC动态2天前发布 AIera
362 0 0
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

 

文章摘要


【关 键 词】 推理模型视觉推理编程工具多模态开源工具

OpenAI最新发布的满血版o3和o4-mini模型在多个领域展现了卓越的性能,尤其是在视觉推理和工具调用方面实现了重大突破。o3模型首次将图像推理融入思维链,能够自主调用工具,并在60秒内解决复杂问题。在编程、数学和视觉推理等基准测试中,o3刷新了SOTA(State of the Art)记录,接近“天才水平”。其算力需求是前代o1的十倍,但性能提升显著。o4-mini则以小巧高效、高性价比的特点脱颖而出,尤其在AIME 2025测试中取得了99.5%的高分,性能优于o3-mini。

这两款模型的最大亮点在于它们不仅仅是推理模型,而是完整的AI系统。它们首次被训练使用各种工具,能够在思维链中自主调用工具解决复杂问题。例如,o3在处理一个复杂任务时,连续调用了约600次工具,生成的代码片段能够直接在代码库中发挥作用。这种能力使得o3在软件工程任务中表现出色,甚至比人类开发者更高效。此外,o3和o4-mini在指令跟随和工具使用评估中的准确性也达到了最高水平。

在视觉推理方面,o3和o4-mini通过思维链中的图像推理,实现了视觉感知的重大突破。它们不仅能够处理用户上传的图像,还能进行裁剪、放大、旋转等操作,无需依赖额外的专业模型。在多项基准测试中,这两款模型的表现全面超越前代,尤其是在V*基准测试中,准确率达到了96.3%,标志着视觉推理技术的重大飞跃。

OpenAI还开源了轻量级编程AI智能体Codex CLI,旨在充分发挥o3和o4-mini的推理能力。Codex CLI允许用户在终端中运行代码,并结合多模态推理功能,能够处理屏幕截图或低保真草图,生成可执行的代码。这一工具在GitHub上发布后迅速获得了广泛关注,斩获了3.3k星。此外,OpenAI还启动了100万美元的资助计划,支持使用Codex CLI和OpenAI模型的项目。

在强化学习方面,OpenAI的研究表明,大规模强化学习依然遵循“投入越多计算资源,性能越好”的规律。通过提升训练计算量和推理阶段的思考量,o3和o4-mini在性能上取得了显著提升。尤其是在开放式场景中,它们能够灵活调用工具,处理复杂的视觉推理和多步骤工作流任务。

总体而言,o3和o4-mini不仅在推理能力上达到了新的高度,还在工具调用、视觉推理和多模态任务中展现了强大的潜力。它们的发布标志着AI技术在推理、视觉和多模态领域的重大进步,为未来的科学发现、临床决策和跨领域创新提供了强有力的支持。

原文和模型


【原文链接】 阅读原文 [ 3534字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...