Gemini 2.0发布!主打Agent+多模态,性能超1.5 Pro、可直接生成音频、图片

AI-Agent1个月前发布 Founder Park
150 0 0
Gemini 2.0发布!主打Agent+多模态,性能超1.5 Pro、可直接生成音频、图片

 

文章摘要


【关 键 词】 Gemini 2.0多模态AI助手性能提升功能集成

谷歌发布了Gemini 2.0 Flash,标志着原生多模态输入输出模型时代的到来。这款模型在性能上与1.5 Pro型号相当,但成本效益、性能效率和速度均有所提升。Gemini 2.0 Flash不仅在原有任务上表现更优,还能执行新任务,如原生生成音频和图像,为AI领域的Agent奠定了基础。

此次发布包括四款产品:Gemini 2.0 Flash、通用助手Project Astra的新进展、浏览器Agent助手Project Mariner和AI代码助手Jules。Gemini 2.0 Flash在响应速度上是1.5 Pro的两倍,支持图片、视频、音频等多模态输入和输出,包括生成图像与文本混合内容和可控的多语言文本转语音音频。它还能调用Google Search、代码执行和第三方用户定义的函数等工具。

开发者可通过Google AI Studio和Vertex AI使用Gemini 2.0 Flash模型,所有开发者均可使用多模态输入和文本输出。产品将于1月份全面上市,届时将推出更多型号。Gemini 2.0 Flash已训练成能够使用工具,这是构建Agent体验的基础能力。它不仅能原生调用Google搜索和代码执行等工具,还能通过函数调用方式集成自定义的第三方功能。

Project Astra基于Gemini 2.0 Flash版本,更新了多项功能,包括更流畅的对话、新工具的使用、更强的记忆力和更低的延迟。Project Mariner使用Gemini 2.0构建,能够理解和推理浏览器页面中的信息,然后通过Chrome扩展程序完成任务。Jules基于Gemini 2.0,与用户的GitHub工作流程集成,负责处理Bug修复和其他耗时的任务。

谷歌还推出了游戏Agent,利用Gemini 2.0构建,帮助用户在视频游戏的虚拟世界中导航。此外,谷歌还推出了深度研究功能,基于高级推理和长上下文能力,直接帮助用户完成研究助理的工作。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2291字 | 10分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...