用AI把一段视频变成可视化网页，Google的新模型又卷飞了。

997 0 0

文章摘要

Google最近在AI领域表现活跃，尤其是在其Gemini模型的更新上。Gemini 2.5 Pro的最新版本（05-06版）在代码生成和多模态理解方面取得了显著进展。该版本在WebDev Arena盲测竞技场中击败了Claude 3.7 Sonnet，登顶榜首。WebDev Arena是一个专门评测网页前端开发任务的平台，用户通过盲测选择最佳代码生成结果，确保测试的公正性和准确性。05-06版的Arena Score提升了147分，这一进步在国际象棋和电竞中相当于隐藏分的显著提升，显示了其代码生成能力的强大。

此外，05-06版在多模态理解上也有突破，特别是在视频理解方面。在VideoMME基准测试中，该版本得分为84.8%，使其能够根据视频生成可视化网页代码。这一功能为开发者提供了新的工具，能够将视频内容转化为交互式网页，极大地提升了学习和开发的效率。尽管目前Gemini官网不支持视频上传，且AI Studio中上传视频时存在bug，但通过YouTube链接生成代码的功能已经实现。

Gemini 2.5 Pro 05-06版的升级不仅提升了代码生成能力，还在多模态理解上开辟了新的应用场景。然而，Google在产品打磨上仍有不足，如命名混乱、入口不清晰和交互bug等问题。尽管如此，Gemini模型的进步已经使其不再是仅靠PPT和论文刷存在感的AI产品，而是真正具备了与OpenAI等竞争对手抗衡的实力。接下来，Google在即将到来的I/O大会上是否会发布更多重磅更新，值得期待。