Gemini 2.0发布!主打Agent+多模态,性能超1.5 Pro、可直接生成音频、图片
文章摘要
【关 键 词】 Gemini 2.0、多模态、AI助手、性能提升、功能集成
谷歌发布了Gemini 2.0 Flash,标志着原生多模态输入输出模型时代的到来。这款模型在性能上与1.5 Pro型号相当,但成本效益、性能效率和速度均有所提升。Gemini 2.0 Flash不仅在原有任务上表现更优,还能执行新任务,如原生生成音频和图像,为AI领域的Agent奠定了基础。
此次发布包括四款产品:Gemini 2.0 Flash、通用助手Project Astra的新进展、浏览器Agent助手Project Mariner和AI代码助手Jules。Gemini 2.0 Flash在响应速度上是1.5 Pro的两倍,支持图片、视频、音频等多模态输入和输出,包括生成图像与文本混合内容和可控的多语言文本转语音音频。它还能调用Google Search、代码执行和第三方用户定义的函数等工具。
开发者可通过Google AI Studio和Vertex AI使用Gemini 2.0 Flash模型,所有开发者均可使用多模态输入和文本输出。产品将于1月份全面上市,届时将推出更多型号。Gemini 2.0 Flash已训练成能够使用工具,这是构建Agent体验的基础能力。它不仅能原生调用Google搜索和代码执行等工具,还能通过函数调用方式集成自定义的第三方功能。
Project Astra基于Gemini 2.0 Flash版本,更新了多项功能,包括更流畅的对话、新工具的使用、更强的记忆力和更低的延迟。Project Mariner使用Gemini 2.0构建,能够理解和推理浏览器页面中的信息,然后通过Chrome扩展程序完成任务。Jules基于Gemini 2.0,与用户的GitHub工作流程集成,负责处理Bug修复和其他耗时的任务。
谷歌还推出了游戏Agent,利用Gemini 2.0构建,帮助用户在视频游戏的虚拟世界中导航。此外,谷歌还推出了深度研究功能,基于高级推理和长上下文能力,直接帮助用户完成研究助理的工作。
原文和模型
【原文链接】 阅读原文 [ 2291字 | 10分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆