谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西

谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西

 

文章摘要


【关 键 词】 AI谷歌推理编程多模态

谷歌最新发布的AI模型Gemini 2.5 Pro被其CEO称为“谷歌有史以来最智能的AI模型”。该模型在多个基准测试中表现出色,尤其是在推理能力、科学和数学能力方面。在Humanity’s Last Exam基准测试中,Gemini 2.5 Pro取得了18.8%的准确率,超过了OpenAI的o3-mini(high)。在GPQA、AIME 2025等主流基础测试中,Gemini 2.5 Pro也遥遥领先。

编程能力方面,Gemini 2.5 Pro相比2.0版本实现了质的飞跃。在SWE-bench和Aider Polyglot测试中,Gemini 2.5 Pro均斩获第一,仅在Agentic coding方面逊色于Claude 3.7 Sonnet。谷歌称Gemini 2.5 Pro擅长创建视觉效果精美的网页应用和操作智能体。在官方demo中,只需一行提示词,Gemini 2.5 Pro就能逐步推理出类似“flappy bird”小游戏的全部代码,并且直接可玩。

在对话能力方面,Gemini 2.5 Pro在Chatbot Arena的榜单上以绝对优势强势登顶,创下了前所未有的最大分数飞跃,比Grok-3和GPT-4.5高接近40分。在复杂指令、编程、数学、创意写作、指令跟随的榜单上,Gemini 2.5 Pro也是全面领先,堪称“六边形战士”。

Gemini 2.5 Pro延续了Gemini系列模型的核心优势——原生多模态能力和长上下文窗口。该版本拥有100万token的上下文窗口(即将提升至200万token),支持文本、音频、图像、视频及完整代码库输入。在Vision Arena榜单上,Gemini 2.5 Pro的多模态能力一骑绝尘,支持将图像转化为可以3D打印的格式。

谷歌并未公开技术报告,但从其博客中得知,技术突破在于强化学习、思维链提示和后训练。普通用户和企业现在可以通过Google AI Studio体验Gemini 2.5 Pro,未来几周内,该模型也将登陆Vertex AI平台。

在实测中,Gemini 2.5 Pro在推理、数学、科学和编程四个方面表现出色。在逻辑题、数学题和科学题中,Gemini 2.5 Pro均能轻松解答。在编程测试中,Gemini 2.5 Pro一次成功生成贪吃蛇游戏,并能够精准识别代码中的问题,给出标准的专业分析。

Gemini 2.5 Pro在多个领域的卓越表现,展示了其在AI领域的领先地位。

原文和模型


【原文链接】 阅读原文 [ 2425字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...