谷歌发布Gemini2.0，开启Agent新时代

231 0 0

文章摘要

谷歌近日发布了其最新的AI模型 Gemini 2.0，标志着公司在AI领域的重大进步。Gemini 2.0是首个实现原生多模态输入输出的模型，性能全面升级，速度是前代1.5 Pro的两倍，能够处理图片、视频和音频等多种输入输出形式，并能生成图像与文本混合内容及可控的多语言文本转语音音频。此外，Gemini 2.0还能调用Google Search、代码执行和第三方用户定义的函数等工具。

基于Gemini 2.0，谷歌推出了三款AI agent产品：Project Astra、Project Mariner和Jules。Project Astra是一款通用大模型助手，具备实时语音和视觉处理能力，能进行跨文本、音频、视频的多模态实时推理，并在对话、工具调用、记忆和延迟方面进行了全面升级。Project Mariner是一款浏览器助手，能够理解和推理浏览器屏幕上的信息，并完成任务。Jules则是一款编程助手，集成到GitHub工作流程中，帮助开发者改写代码和解决bug。

谷歌还在游戏、学术研究和机器人领域探索Gemini 2.0的应用。在音频和图像生成方面，Gemini 2.0展现了强大实力，能生成和修改图像，处理照片和视频，并用不同口音和语言的声音朗读文本。谷歌还推出了多模态实时API，帮助开发者构建具有实时音频和视频流功能的应用程序。

Gemini 2.0的强大性能基于谷歌定制的硬件第六代TPUTrillium。目前，人们可以通过PC端体验2.0Flash实验版，移动版也将很快推出。谷歌计划在2025年开启真正的“AI智能体时代”，将Gemini 2.0的先进推理能力引入AI Overviews，处理更复杂的主题和多步骤问题。