谷歌发布Geimini2.0，开启Agent新时代

AI-Agent1年前 (2024)发布 aitechtalk

2,088 0 0

文章摘要

谷歌近期发布了其最新的AI模型Gemini2.0，标志着公司在AI领域的重大进步。Gemini2.0是首个实现原生多模态输入输出的模型，性能全面升级，速度是前代1.5 Pro的两倍，能够处理图片、视频和音频等多种输入输出形式，并直接生成图像与文本混合内容及多语言文本转语音音频。此外，Gemini2.0还能调用Google Search、代码执行和第三方用户定义的函数等工具。

基于Gemini2.0，谷歌推出了三款AI agent产品：Project Astra、Project Mariner和Jules。Project Astra是一款通用大模型助手，具备实时语音和视觉处理能力，能够跨文本、音频、视频进行多模态实时推理，并在对话、工具调用、记忆和延迟方面进行了全面升级。Project Mariner是一个浏览器助手，能够理解和推理浏览器屏幕上的信息，并完成任务。Jules则是一款编程助手，集成到GitHub工作流程中，帮助开发者改写代码和解决bug。

谷歌的AI技术正在融入其所有产品中，Gemini2.0的先进推理能力将被引入AI Overviews，处理更复杂的主题和多步骤问题。谷歌计划在2025年开启真正的“AI智能体时代”，届时将有更多的功能和应用被引入。Gemini2.0的强大性能基于谷歌定制的硬件第六代TPUTrillium，该硬件在训练性能、推理吞吐量和计算性能等方面都有显著提升。目前，Gemini2.0 Flash实验版已向开发者开放，移动版和多模式版本也将陆续推出。