谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿

AIGC动态4小时前发布 QbitAI
9 0 0
谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿

 

文章摘要


【关 键 词】 Gemini模型AI竞技场多领域能力谷歌AI Studio思维链

谷歌最新模型Gemini(Exp 1114)在经过6000多名网友的匿名投票后,超越了OpenAI的o1模型,成为竞技场总榜第一。Gemini(Exp 1114)不仅在数学成绩上与o1相当,还在其他六个单项上获得第一名,包括复杂提示处理、数学、创意写作、指令遵循、长查询处理、多轮对话。尽管在写代码和风格控制方面未能进入前三,Gemini(Exp 1114)在视觉能力上超越了GPT-4o,成为该领域的第一名。

Gemini(Exp 1114)的数学能力尤为引人注目,与o1模型不相上下。尽管在写代码方面有所改进,但仍未能超越o1-mini/preview。风格控制方面,Gemini-Exp-1114也未能进入前三,排在o1、4o-latest和Sonnet之后。尽管如此,Gemini-Exp-1114在视觉能力上取得了第一名的成绩。

目前,Gemini-Exp-1114已在谷歌AI Studio上线,官方计划提供API。网友测试发现,该模型拥有32k上下文窗口,知识截止日期为2023年4月。尽管32k上下文窗口受到一些吐槽,但谷歌AI Studio负责人表示将进行更新。此外,Gemini-Exp-1114加入了思维链,使其在回答问题时能像人类一样逐步思考。在数学能力上,Gemini-Exp-1114正确回答了2024美国数学奥林匹克预选赛II 1-8题,甚至在编码方面也取得了一定的成功。然而,该模型在回答物理问题时出现错误,数字比大小和数草莓中的“r”也未能成功识别。

关于Gemini-Exp-1114是否为传说中的Gemini 2,网友意见不一。有人认为它连旧版1.5 Pro能解决的问题也无法解决,猜测这可能是谷歌推迟发布更大模型的策略。CEO皮猜的行为也让人怀疑这一点。尽管如此,Gemini-Exp-1114的上线无疑为AI领域带来了新的惊喜和挑战。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1196字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...