新王登基,Gemini 1.5 Pro 再度更新,超越 GPT 4o 和 Claude-3.5
文章摘要
【关 键 词】 Gemini 1.5 Pro、Chatbot Arena、多语言能力、DeepMind、行业关注
DeepMind研发的Gemini 1.5 Pro实验版(0801)在Chatbot Arena排名中取得了显著成绩,超越了GPT-4o和Claude-3.5,夺得了第一名。这一成绩标志着OpenAI在Chatbot Arena的Overall ranking宝座上第二次被超越。Gemini 1.5 Pro实验版在Chatbot Arena测试一周后,获得了超过12,000个社区投票,并在Chatbot Arena和Vision Leaderboard排名上均取得了第一名的好成绩。
Gemini 1.5 Pro实验版在各个细分领域上也有着出色的表现。在数学方面排名前三,指令遵循排名前二,编码排名前五,硬提示(英语)排名前五。此外,Gemini 1.5 Pro实验版还具有强大的多语言能力,在中文、日语、德语、俄语方面均表现第一。从总体胜率图上也能看出Gemini 1.5 Pro实验版的实力强劲,对阵GPT-4o的胜率为54%,对阵Claude-3.5-Sonnet的胜率为59%。
Gemini 1.5 Pro实验版的成功引起了业界的广泛关注。前OpenAI的开发者、现Google AI Studio的产品负责人Logan Kilpatrick火速转发了这一消息,向大家宣布Gemini 1.5 Pro实验版目前在LMSYS的文本和多模式排名中均位居第一。DeepMind的CEO Demis Hassabis也转发了这条消息,祝贺Gemini 1.5 Pro实验版能够在极具竞争力的榜单中拿下第一,并宣布这一版本已经可以在AI Studio上进行试用。
带领研发Gemini的Jeff Dean也转发了这一消息,对此次实验版本的Gemini 1.5 Pro突破1300+elo分数拿下排名第一的好消息感到非常自豪,并期待未来能看到其他更好的模型。其他从业人员也纷纷发来祝贺。
试用体验方面,有用户分享了对Gemini 1.5 Pro的兴趣,并分享了自己的测试全过程视频。用户elvis表示,Gemini 1.5 Pro强大的图像和PDF提取能力给他留下了深刻的印象。Gemini 1.5 Pro有着与GPT-4o不相上下的视觉能力,也有Claude 3.5 Sonnet接近的代码生成及PDF理解/推理能力。此外,还有用户认为Gemini 1.5 Pro在解决高级数学难题方面表现相当不错,以及在图像识别植物和动物方面做得确实要比GPT 4o更好。
目前,有更多的人在期待Gemini 1.5 Pro这一版本的正式上线,并希望能够通过API实现Gemini 1.5 Pro的实际运用。业界对Gemini 1.5 Pro这次发布的实验版本充满了期待和关注。
参考材料:
– https://x.com/lmsysorg/status/1819048821294547441
– https://x.com/OfficialLoganK/status/1819049322295533684
– https://x.com/demishassabis/status/1819085274917622198
– https://x.com/JeffDean/status/1819121162578022849
– https://x.com/omarsar0/status/1819162249593840110
原文和模型
【原文链接】 阅读原文 [ 721字 | 3分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆