文章摘要
【关 键 词】 推理模型、性能对比、OpenAI、DeepSeek、科技转折
OpenAI最近发布了o3-mini系列推理模型,旨在推动低成本推理的边界。该系列包含三个版本:low、medium和high,其中o3-mini和o3-mini-high已上线。o3系列模型针对STEM领域优化,延续了mini系列小而美的风格。与前一代o1-mini相比,o3-mini在数学编码上表现相当,响应更快,且在人类专家测评中获得56%的偏好度,重大错误率降低了39%。在数学能力上,o3-mini在不同推理强度下均超越o1系列模型。科学能力方面,o3-mini在低推理强度下已超越o1-mini。编码能力上,o3-mini在各层级上领先o1系列。然而,与DeepSeek-R1相比,o3-mini价格仍较高,被认为性价比不如DeepSeek-R1。
o3-mini上线后,网友们开始对其进行疯狂实测,评价褒贬不一。在一些复杂任务中,o3-mini表现出色,如设计游戏、生成复杂城市等。但也有人指出,尽管o3-mini在某些方面优于DeepSeek,但DeepSeek在性能相似的情况下价格更低,并能揭示推理过程。知名播客博主Lex Fridman认为,尽管更好的模型将会出现,但DeepSeek时刻是科技历史上的一个转折点。
OpenAI CEO奥特曼在Reddit的”有问必答”活动中公开反思,承认在开源AI模型问题上站在了历史错误的一边,并表示OpenAI的领先优势将更小。同时,OpenAI的一些未来计划曝光,如GPT-5的更新和推理模型支持调用更多工具。尽管满血版o3被提及,但距离实现尚远。
原文和模型
【原文链接】 阅读原文 [ 1413字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆