OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最强智能体组团击毙o1

1,976 0 0

文章摘要

【关键词】 AI智能体、多模态模型、谷歌DeepMind、性能提升、实时API

谷歌DeepMind宣布了新一代原生多模态模型Gemini 2.0 Flash的正式发布，标志着智能体时代的进一步发展。Gemini 2.0 Flash在性能上超越了前代1.5 Pro，速度提升一倍，展现出卓越的多语言能力和原生调用谷歌搜索等工具的能力。特别在编码方面，Gemini 2.0 Flash在SWE-bench Verified基准测试中击败了完整版o1。

谷歌基于Gemini 2.0推出了多个智能体项目，包括通用AI助手Project Astra、浏览器交互智能体Project Mariner、AI代码智能体Jules、游戏辅助智能体和机器人智能体。这些项目展示了AI智能体在不同领域的应用潜力。预计2025年将成为AI智能体的关键年，谷歌将利用Gemini 2.0支撑其智能体工作流。

Gemini 2.0的进步得益于谷歌十年的全栈式AI创新投资，基于定制硬件如第六代TPU Trillium构建，为模型的训练和推理提供100%支持。Gemini 2.0 Flash支持多模态输入和输出，包括图文混合内容和多语言文本转语音功能，并能调用谷歌搜索、代码执行等工具。

Gemini 2.0 Flash Experimental已在Google AI Studio和Vertex AI平台上通过Gemini API向开发者开放，提供多模态输入和文本输出功能。文本转语音和原生图像生成功能目前仅向首批合作伙伴开放。谷歌还推出了新的多模态实时API，支持实时音频、视频流输入，并能集成调用多种工具组合。普通用户可通过网页端使用2.0 Flash Experimental，移动端版本也将很快上线，正式版模型预计于2025年1月推出。

Gemini 2.0 Flash的发布开启了AI交互的新阶段，具备原生用户交互界面能力，并在多模态推理、长文本理解、复杂指令执行等方面取得技术突破，为用户提供更流畅、直观的AI交互体验。谷歌通过原型创新，打造原生用户界面新体验，探索AI助手的未来。