Gemini 2.0发布！主打Agent+多模态，性能超1.5 Pro、可直接生成音频、图片

852 0 0

文章摘要

谷歌发布了Gemini 2.0 Flash，标志着原生多模态输入输出模型时代的到来。这款模型在性能上与1.5 Pro型号相当，但成本效益、性能效率和速度均有所提升。Gemini 2.0 Flash不仅在原有任务上表现更优，还能执行新任务，如原生生成音频和图像，为AI领域的Agent奠定了基础。

此次发布包括四款产品：Gemini 2.0 Flash、通用助手Project Astra的新进展、浏览器Agent助手Project Mariner和AI代码助手Jules。Gemini 2.0 Flash在响应速度上是1.5 Pro的两倍，支持图片、视频、音频等多模态输入和输出，包括生成图像与文本混合内容和可控的多语言文本转语音音频。它还能调用Google Search、代码执行和第三方用户定义的函数等工具。

开发者可通过Google AI Studio和Vertex AI使用Gemini 2.0 Flash模型，所有开发者均可使用多模态输入和文本输出。产品将于1月份全面上市，届时将推出更多型号。Gemini 2.0 Flash已训练成能够使用工具，这是构建Agent体验的基础能力。它不仅能原生调用Google搜索和代码执行等工具，还能通过函数调用方式集成自定义的第三方功能。

Project Astra基于Gemini 2.0 Flash版本，更新了多项功能，包括更流畅的对话、新工具的使用、更强的记忆力和更低的延迟。Project Mariner使用Gemini 2.0构建，能够理解和推理浏览器页面中的信息，然后通过Chrome扩展程序完成任务。Jules基于Gemini 2.0，与用户的GitHub工作流程集成，负责处理Bug修复和其他耗时的任务。

谷歌还推出了游戏Agent，利用Gemini 2.0构建，帮助用户在视频游戏的虚拟世界中导航。此外，谷歌还推出了深度研究功能，基于高级推理和长上下文能力，直接帮助用户完成研究助理的工作。