文章摘要
【关 键 词】 AI进展、性能超越、物理推理、代码生成、科研伙伴
OpenAI的最新模型o3-mini在AI领域取得了显著进展,其性能在多个基准测试中超越了DeepSeek R1。o3-mini在数学代码基准测试中取得了最高成绩,并在物理模拟挑战中展现了卓越的物理推理能力,特别是在处理复杂物理系统和多球碰撞问题时。教授Derya Unutmaz对o3-mini的表现感到非常激动,认为它只需一次提示就能准确生成符合物理定律的代码,而DeepSeek-R1则显得吃力。
在纯文本测试集上,o3-mini(medium/high)的准确率也超越了DeepSeek-R1。奥特曼表示,人类可能需要另一场考试来应对AI的进步。o3-mini在代码补全基准Codeforces排名中,相较于o1系列模型,显示出明显的进步。Artificial Analysis认为o3-mini是从o1-mini向前迈出的一大步,并公布了o3-mini的初步结果,包括人工分析质量指数为89,略低于o1,但更便宜且快速。
AI初创企业CEO Bindu Reddy认为,综合考虑性能、速度和价格,o3-mini high是目前最好的大语言模型(LLM)。在编程上,o3-mini high大幅度领先o1、Sonnet等模型,且价格更便宜,速度更快。OpenAI研究员Clive Chan表示,他完全信任o3-mini生成的Python代码,并在涉及不熟悉编程语言的项目中得到了帮助。
o3-mini在理解和解析arXiv论文方面达到了全球独一无二的水平,成为真正的科研伙伴。它能够回答只有极少数人类知道答案的问题,这确实令人惊叹。此外,o3-mini在物理推理方面展现出惊人的能力,成功生成了四维超立方体内反弹小球的Python代码。OpenAI的策略重新获得了用户的“芳心”,开发者Mckay Wrigley已经用o3-mini模型代替AI智能体和工作流中的o1模型,因为o3-mini更便宜且速度更快。
OpenAI在2024年快速增长,ChatGPT付费订阅用户已达1550万,企业模型采用率增长了7倍,新推出的200美元/月Pro订阅计划年收入已达3亿美元。OpenAI与美国政府合作,确保AI领域的领先地位,并展示了即将推出的技术,以减少未来措手不及的可能性。
原文和模型
【原文链接】 阅读原文 [ 2298字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★