谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

2,070 0 0

文章摘要

【关键词】 Gemini模型、AI竞技场、多领域能力、谷歌AI Studio、思维链

谷歌最新模型Gemini（Exp 1114）在经过6000多名网友的匿名投票后，超越了OpenAI的o1模型，成为竞技场总榜第一。Gemini（Exp 1114）不仅在数学成绩上与o1相当，还在其他六个单项上获得第一名，包括复杂提示处理、数学、创意写作、指令遵循、长查询处理、多轮对话。尽管在写代码和风格控制方面未能进入前三，Gemini（Exp 1114）在视觉能力上超越了GPT-4o，成为该领域的第一名。

Gemini（Exp 1114）的数学能力尤为引人注目，与o1模型不相上下。尽管在写代码方面有所改进，但仍未能超越o1-mini/preview。风格控制方面，Gemini-Exp-1114也未能进入前三，排在o1、4o-latest和Sonnet之后。尽管如此，Gemini-Exp-1114在视觉能力上取得了第一名的成绩。

目前，Gemini-Exp-1114已在谷歌AI Studio上线，官方计划提供API。网友测试发现，该模型拥有32k上下文窗口，知识截止日期为2023年4月。尽管32k上下文窗口受到一些吐槽，但谷歌AI Studio负责人表示将进行更新。此外，Gemini-Exp-1114加入了思维链，使其在回答问题时能像人类一样逐步思考。在数学能力上，Gemini-Exp-1114正确回答了2024美国数学奥林匹克预选赛II 1-8题，甚至在编码方面也取得了一定的成功。然而，该模型在回答物理问题时出现错误，数字比大小和数草莓中的“r”也未能成功识别。

关于Gemini-Exp-1114是否为传说中的Gemini 2，网友意见不一。有人认为它连旧版1.5 Pro能解决的问题也无法解决，猜测这可能是谷歌推迟发布更大模型的策略。CEO皮猜的行为也让人怀疑这一点。尽管如此，Gemini-Exp-1114的上线无疑为AI领域带来了新的惊喜和挑战。