谷歌终于登顶一次了！最强推理模型Gemini 2.5 Pro实测体验，真的有点东西

AI-Agent1年前 (2025)发布 almosthuman2014

2,718 0 0

谷歌终于登顶一次了！最强推理模型Gemini 2.5 Pro实测体验，真的有点东西

文章摘要

谷歌最新发布的AI模型Gemini 2.5 Pro被其CEO称为“谷歌有史以来最智能的AI模型”。该模型在多个基准测试中表现出色，尤其是在推理能力、科学和数学能力方面。在Humanity’s Last Exam基准测试中，Gemini 2.5 Pro取得了18.8%的准确率，超过了OpenAI的o3-mini（high）。在GPQA、AIME 2025等主流基础测试中，Gemini 2.5 Pro也遥遥领先。

在编程能力方面，Gemini 2.5 Pro相比2.0版本实现了质的飞跃。在SWE-bench和Aider Polyglot测试中，Gemini 2.5 Pro均斩获第一，仅在Agentic coding方面逊色于Claude 3.7 Sonnet。谷歌称Gemini 2.5 Pro擅长创建视觉效果精美的网页应用和操作智能体。在官方demo中，只需一行提示词，Gemini 2.5 Pro就能逐步推理出类似“flappy bird”小游戏的全部代码，并且直接可玩。

在对话能力方面，Gemini 2.5 Pro在Chatbot Arena的榜单上以绝对优势强势登顶，创下了前所未有的最大分数飞跃，比Grok-3和GPT-4.5高接近40分。在复杂指令、编程、数学、创意写作、指令跟随的榜单上，Gemini 2.5 Pro也是全面领先，堪称“六边形战士”。

Gemini 2.5 Pro延续了Gemini系列模型的核心优势——原生多模态能力和长上下文窗口。该版本拥有100万token的上下文窗口（即将提升至200万token），支持文本、音频、图像、视频及完整代码库输入。在Vision Arena榜单上，Gemini 2.5 Pro的多模态能力一骑绝尘，支持将图像转化为可以3D打印的格式。

谷歌并未公开技术报告，但从其博客中得知，技术突破在于强化学习、思维链提示和后训练。普通用户和企业现在可以通过Google AI Studio体验Gemini 2.5 Pro，未来几周内，该模型也将登陆Vertex AI平台。

在实测中，Gemini 2.5 Pro在推理、数学、科学和编程四个方面表现出色。在逻辑题、数学题和科学题中，Gemini 2.5 Pro均能轻松解答。在编程测试中，Gemini 2.5 Pro一次成功生成贪吃蛇游戏，并能够精准识别代码中的问题，给出标准的专业分析。

Gemini 2.5 Pro在多个领域的卓越表现，展示了其在AI领域的领先地位。