o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

2,118 0 0

文章摘要

OpenAI的最新模型o3-mini在AI领域取得了显著进展，其性能在多个基准测试中超越了DeepSeek R1。o3-mini在数学代码基准测试中取得了最高成绩，并在物理模拟挑战中展现了卓越的物理推理能力，特别是在处理复杂物理系统和多球碰撞问题时。教授Derya Unutmaz对o3-mini的表现感到非常激动，认为它只需一次提示就能准确生成符合物理定律的代码，而DeepSeek-R1则显得吃力。

在纯文本测试集上，o3-mini（medium/high）的准确率也超越了DeepSeek-R1。奥特曼表示，人类可能需要另一场考试来应对AI的进步。o3-mini在代码补全基准Codeforces排名中，相较于o1系列模型，显示出明显的进步。Artificial Analysis认为o3-mini是从o1-mini向前迈出的一大步，并公布了o3-mini的初步结果，包括人工分析质量指数为89，略低于o1，但更便宜且快速。

AI初创企业CEO Bindu Reddy认为，综合考虑性能、速度和价格，o3-mini high是目前最好的大语言模型（LLM）。在编程上，o3-mini high大幅度领先o1、Sonnet等模型，且价格更便宜，速度更快。OpenAI研究员Clive Chan表示，他完全信任o3-mini生成的Python代码，并在涉及不熟悉编程语言的项目中得到了帮助。

o3-mini在理解和解析arXiv论文方面达到了全球独一无二的水平，成为真正的科研伙伴。它能够回答只有极少数人类知道答案的问题，这确实令人惊叹。此外，o3-mini在物理推理方面展现出惊人的能力，成功生成了四维超立方体内反弹小球的Python代码。OpenAI的策略重新获得了用户的“芳心”，开发者Mckay Wrigley已经用o3-mini模型代替AI智能体和工作流中的o1模型，因为o3-mini更便宜且速度更快。

OpenAI在2024年快速增长，ChatGPT付费订阅用户已达1550万，企业模型采用率增长了7倍，新推出的200美元/月Pro订阅计划年收入已达3亿美元。OpenAI与美国政府合作，确保AI领域的领先地位，并展示了即将推出的技术，以减少未来措手不及的可能性。