OpenAI o1全方位SOTA登顶lmsys排行榜！数学能力碾压Claude和谷歌模型，o1-mini并列第一

2,432 0 0

文章摘要

OpenAI的o1模型在lmsys竞技场的测评中取得了显著成绩，其o1-preview版本在多个领域如数学、困难提示和编码上超越了GPT-4o，成为排行榜的领头羊。o1-mini虽然名为“mini”，但也与GPT-4o并列综合排名第二，同样在困难提示、编码和数学领域登顶。lmsys社区通过6k+的投票，将OpenAI的这一进展誉为“令人难以置信的里程碑”。

在1v1胜率的统计中，o1-preview对所有模型的胜率均超过50%，尤其是与04-09版GPT-4-Turbo的对比中，胜率达到了88%。o1-mini在与o1-preview的对抗中胜率为46%，与09-03版GPT-4o的胜率为48%，显示出与o1-preview相近但略逊一筹的实力。尽管Grok-2-mini和Claude 3.5 Sonnet排名靠后，但o1-preview对它们的胜率并不高，分别为58%和57%，低于排名第四的Gemini 1.5 Pro的69%。

在数学/推理领域，o1-preview和o1-mini不仅登顶数学排行榜，还展现出了绝对的领先优势，分数接近1360，远超其他模型。o1推理团队的领导者之一William Fedus对这一成绩表示满意，认为这很好地展示了范式转换。

o1模型在STEM学科和通用推理方面的表现回应了对AI发展的质疑。OpenAI还公开了o1模型在编程竞赛中的代码，包括6个问题的C++代码和注释，显示了其在编程领域的潜力。在Codeforces编程竞赛中，o1-preview能够打败62%的人类选手，而正式版o1则能超越89%的对手。专门微调过的o1-ioi模型表现更优，优于93%的竞争对手。

尽管o1模型取得了显著的成绩，但也存在一些质疑声音。一些人指出o1模型的推理时间长，回答延时与其他模型有明显差别。此外，lmsys社区的评分基于用户主观评价，可能存在“安慰剂效应”。还有观点认为，尽管o1-mini适合项目规划，但在编码助手如Cursor中，Claude模型的表现更佳。

o1模型的未来表现和口碑还需时间来验证。同时，Reddit网友提醒，目前公开的是o1预览版，正式版o1即将发布，值得期待。o1模型基本沿用了GPT-4的架构，让人联想到GPT-5（猎户座）的潜在高度。