OpenAI深夜上线o3满血版和o4 mini – 依旧领先。

AIGC动态2天前发布 admin
118 0 0
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

 

文章摘要


【关 键 词】 OpenAI模型发布视觉推理工具使用性能提升

OpenAI在直播中正式发布了o3和o4-mini模型,取代了之前的o1、o3-mini和o3-mini-high。ChatGPT Plus、Pro和Team用户从即日起可以在模型选择器中看到这些新模型。尽管o3 pro还需几周才能上线,但o3和o4-mini的发布标志着OpenAI在模型性能和多模态能力上的重大突破。o3和o4-mini首次实现了视觉推理能力,能够在思维链中处理图像,这是模型能力的一次范式级跃迁。

在性能方面,o3和o4-mini在多个数据集和任务中表现出色。o3在AIME数学竞赛中的准确率从91.6%提升至95.2%,而o4-mini在不开工具的情况下达到了93.4%,接入Python后更是飙升至98.7%。在跨学科的PhD级科学题和专家级综合测试中,o3的表现也优于o4-mini,尤其是在接入多种工具后,准确率进一步提升。多模态能力方面,o3在MMMU、MathVista和CharXiv-Reasoning数据集上的表现显著优于o1,尤其是在视觉数学推理任务中,o3将准确率提升至87.5%。

代码能力方面,o3在SWE-Lancer和SWE-Bench Verified等任务中表现优异,尤其是在多语言代码编辑基准中,o3展现了强大的代码重写和补丁修改能力。工具使用方面,o3在多轮指令跟随、浏览器任务和函数调用等场景中表现突出,尤其是在浏览器任务中,o3的表现接近专门微调的DeepResearch模型。然而,o3在幻觉率方面有所上升,达到了o1的两倍,这表明模型在准确性提升的同时,也带来了更高的不确定性。

视觉推理是o3和o4-mini的最大亮点。o3首次实现了将图像融入推理过程,能够像人类一样看图思考,这一能力在多个场景中得到了验证。例如,在猜地点游戏中,o3通过放大图片、分析细节,最终准确猜出了地点。此外,o3还能通过视觉推理辅助安全监控、设计审稿和医疗诊断,预示着这些领域将迎来重大变革。

OpenAI此次还开源了一个AI编程工具,进一步推动了AI技术的普及和应用。o3和o4-mini的发布,标志着AI在视觉推理和工具使用方面的重大突破,预示着未来AI将在更多专业场景中发挥重要作用。这一技术革新不仅提升了模型的性能,也为AI的未来发展开辟了新的方向。

原文和模型


【原文链接】 阅读原文 [ 2767字 | 12分钟 ]
【原文作者】 数字生命卡兹克
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...