谷歌发布Gemini2.0,开启Agent新时代
文章摘要
【关 键 词】 AI模型、多模态、Gemini 2.0、智能助手、实时推理
谷歌近日发布了其最新的AI模型Gemini 2.0,标志着公司在AI领域的重大进步。Gemini 2.0是首个实现原生多模态输入输出的模型,性能全面升级,速度是前代1.5 Pro的两倍,能够处理图片、视频和音频等多种输入输出形式,并能生成图像与文本混合内容及可控的多语言文本转语音音频。此外,Gemini 2.0还能调用Google Search、代码执行和第三方用户定义的函数等工具。
基于Gemini 2.0,谷歌推出了三款AI agent产品:Project Astra、Project Mariner和Jules。Project Astra是一款通用大模型助手,具备实时语音和视觉处理能力,能进行跨文本、音频、视频的多模态实时推理,并在对话、工具调用、记忆和延迟方面进行了全面升级。Project Mariner是一款浏览器助手,能够理解和推理浏览器屏幕上的信息,并完成任务。Jules则是一款编程助手,集成到GitHub工作流程中,帮助开发者改写代码和解决bug。
谷歌还在游戏、学术研究和机器人领域探索Gemini 2.0的应用。在音频和图像生成方面,Gemini 2.0展现了强大实力,能生成和修改图像,处理照片和视频,并用不同口音和语言的声音朗读文本。谷歌还推出了多模态实时API,帮助开发者构建具有实时音频和视频流功能的应用程序。
Gemini 2.0的强大性能基于谷歌定制的硬件第六代TPUTrillium。目前,人们可以通过PC端体验2.0Flash实验版,移动版也将很快推出。谷歌计划在2025年开启真正的“AI智能体时代”,将Gemini 2.0的先进推理能力引入AI Overviews,处理更复杂的主题和多步骤问题。
原文和模型
【原文链接】 阅读原文 [ 2337字 | 10分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆