
文章摘要
谷歌最新发布的Gemini 2.5 Pro Preview(I/O版)在多个领域取得了显著突破,尤其是在编程、视觉和文本处理方面表现卓越。该模型在LMeana基准测试中斩获三连冠,成为首个在文本、视觉和WebDev Arena基准测试中均达到SOTA(State of the Art)水平的模型。Gemini 2.5 Pro在编码性能上全面超越了Claude 3.7 Sonnet,甚至在复杂的智能体工作流开发中也表现出色。谷歌首席科学家Jeff Dean通过多条推文表达了对该模型性能的强烈信心,并宣布开发者可以通过Google AI Studio和Vertex AI开始使用更新后的Gemini 2.5 Pro进行开发。
在视觉基准测试中,Gemini 2.5 Pro凭借巨大优势领先于GPT-4o和o3等模型。在WebDev领域,它成为首个超越Claude的编程模型,甚至超越了最新发布的GPT-4.1。谷歌在官方博客中表示,此次更新原本计划在谷歌I/O大会上发布,但由于用户对模型的热情高涨,决定提前发布。更新后的Gemini 2.5 Pro不仅在UI开发方面有所提升,还扩展到了代码转换、代码编辑和复杂AI智能体工作流的开发。
Gemini 2.5 Pro在视频理解方面也表现出色,在VideoMME基准测试中得分为84.8%。它能够根据单条YouTube视频生成交互式学习网站,展示了其强大的多模态理解能力。谷歌还发布了与更新前Gemini 2.5 Pro的对比视频,进一步证明了新模型的性能提升。AI编程工具Cursor的CEO Michael Truell对此次更新表示兴奋,称新模型在调用工具时的失败率显著降低,用户在使用Cursor时将会感受到更出色的表现。
Gemini 2.5 Pro的发布引发了开发者的广泛关注和热烈讨论。开发者们利用其强大的编码能力,构建了各种有趣的演示,展示了该模型在多个应用场景中的潜力。例如,谷歌研究员JB Alayrac展示了如何将YouTube视频转录成p5.js动画,而Ali Eslami则利用Gemini 2.5 Pro创建了芝加哥艺术学院收藏品的3D导览。此外,开发者们还利用该模型制作了智能花园规划器、听音画猜游戏、图书推荐应用、理财APP、化学元素周期互动表以及地球形成过程的3D演示网站等。
在物理模拟测试中,Gemini 2.5 Pro模拟了桶中来回晃动的水,击败了Claude 3.7 Sonnet和o3。一系列演示充分展示了Gemini 2.5 Pro在实时模拟、动态光影变化、昼夜循环、角色生成和生理指标检测等方面的强大能力。AI专家Andrew Curran表示,Gemini 2.5 Pro的发布标志着AI编程领域的头把交椅再次易主,预示着AI技术的持续进步和竞争加剧。
原文和模型
【原文链接】 阅读原文 [ 1263字 | 6分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆