Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7

1,303 0 0

文章摘要

谷歌最新发布的Gemini 2.5 Pro Preview（I/O版）在多个领域取得了显著突破，尤其是在编程、视觉和文本处理方面表现卓越。该模型在LMeana基准测试中斩获三连冠，成为首个在文本、视觉和WebDev Arena基准测试中均达到SOTA（State of the Art）水平的模型。Gemini 2.5 Pro在编码性能上全面超越了Claude 3.7 Sonnet，甚至在复杂的智能体工作流开发中也表现出色。谷歌首席科学家Jeff Dean通过多条推文表达了对该模型性能的强烈信心，并宣布开发者可以通过Google AI Studio和Vertex AI开始使用更新后的Gemini 2.5 Pro进行开发。

在视觉基准测试中，Gemini 2.5 Pro凭借巨大优势领先于GPT-4o和o3等模型。在WebDev领域，它成为首个超越Claude的编程模型，甚至超越了最新发布的GPT-4.1。谷歌在官方博客中表示，此次更新原本计划在谷歌I/O大会上发布，但由于用户对模型的热情高涨，决定提前发布。更新后的Gemini 2.5 Pro不仅在UI开发方面有所提升，还扩展到了代码转换、代码编辑和复杂AI智能体工作流的开发。

Gemini 2.5 Pro在视频理解方面也表现出色，在VideoMME基准测试中得分为84.8%。它能够根据单条YouTube视频生成交互式学习网站，展示了其强大的多模态理解能力。谷歌还发布了与更新前Gemini 2.5 Pro的对比视频，进一步证明了新模型的性能提升。AI编程工具Cursor的CEO Michael Truell对此次更新表示兴奋，称新模型在调用工具时的失败率显著降低，用户在使用Cursor时将会感受到更出色的表现。

Gemini 2.5 Pro的发布引发了开发者的广泛关注和热烈讨论。开发者们利用其强大的编码能力，构建了各种有趣的演示，展示了该模型在多个应用场景中的潜力。例如，谷歌研究员JB Alayrac展示了如何将YouTube视频转录成p5.js动画，而Ali Eslami则利用Gemini 2.5 Pro创建了芝加哥艺术学院收藏品的3D导览。此外，开发者们还利用该模型制作了智能花园规划器、听音画猜游戏、图书推荐应用、理财APP、化学元素周期互动表以及地球形成过程的3D演示网站等。

在物理模拟测试中，Gemini 2.5 Pro模拟了桶中来回晃动的水，击败了Claude 3.7 Sonnet和o3。一系列演示充分展示了Gemini 2.5 Pro在实时模拟、动态光影变化、昼夜循环、角色生成和生理指标检测等方面的强大能力。AI专家Andrew Curran表示，Gemini 2.5 Pro的发布标志着AI编程领域的头把交椅再次易主，预示着AI技术的持续进步和竞争加剧。