
文章摘要
【关 键 词】 AI、Google、Gemini、代码、视频
Google最近在AI领域表现活跃,尤其是在其Gemini模型的更新上。Gemini 2.5 Pro的最新版本(05-06版)在代码生成和多模态理解方面取得了显著进展。该版本在WebDev Arena盲测竞技场中击败了Claude 3.7 Sonnet,登顶榜首。WebDev Arena是一个专门评测网页前端开发任务的平台,用户通过盲测选择最佳代码生成结果,确保测试的公正性和准确性。05-06版的Arena Score提升了147分,这一进步在国际象棋和电竞中相当于隐藏分的显著提升,显示了其代码生成能力的强大。
此外,05-06版在多模态理解上也有突破,特别是在视频理解方面。在VideoMME基准测试中,该版本得分为84.8%,使其能够根据视频生成可视化网页代码。这一功能为开发者提供了新的工具,能够将视频内容转化为交互式网页,极大地提升了学习和开发的效率。尽管目前Gemini官网不支持视频上传,且AI Studio中上传视频时存在bug,但通过YouTube链接生成代码的功能已经实现。
Gemini 2.5 Pro 05-06版的升级不仅提升了代码生成能力,还在多模态理解上开辟了新的应用场景。然而,Google在产品打磨上仍有不足,如命名混乱、入口不清晰和交互bug等问题。尽管如此,Gemini模型的进步已经使其不再是仅靠PPT和论文刷存在感的AI产品,而是真正具备了与OpenAI等竞争对手抗衡的实力。接下来,Google在即将到来的I/O大会上是否会发布更多重磅更新,值得期待。
原文和模型
【原文链接】 阅读原文 [ 1638字 | 7分钟 ]
【原文作者】 数字生命卡兹克
【摘要模型】 deepseek-v3
【摘要评分】 ★☆☆☆☆