谷歌发布Gemini Live：对标GPT-4o，让每一个人都有贾维斯

AIGC动态1年前 (2024)发布 AIGCOPEN

2,170 0 0

文章摘要

在2024年的“Made by Google”大会上，谷歌公司发布了一款名为Gemini Live的智能语音助手。这款助手具备多模态能力，能够理解自然语言提问，识别图像、视频和语音，与OpenAI的GPT-4o语音模式相类似。Gemini Live的交互功能允许用户像与朋友聊天一样随时打断对话，同时，用户可以授权助手访问邮箱、地图和通讯录等个人信息，实现自动化的日程安排和任务处理。

谷歌在发布Gemini Live时，已经明确表示该助手将支持iOS系统，尽管具体时间尚未确定。在产品演示中，Gemini Live展现了其查看日历并回答用户问题的能力，尽管在演示过程中出现了短暂的无响应情况，但最终成功回答了主持人的提问，引起了现场观众的惊喜反应。

Gemini Live的使用方法简便，用户可以通过长按电源按钮或语音命令“Hey Google”来激活助手。除了理解多种媒体格式，Gemini Live还能够生成图片，如为生日庆祝生成图片，并可在谷歌生态中的应用中直接使用。

谷歌已经将Gemini Live与邮件、云盘、相册、天气等原生应用进行了集成，并计划未来扩展到Keep、Tasks、Utilities等应用，以帮助用户自动完成更多日常任务。目前，安卓手机的Gemini Advanced英文版订阅用户已经可以体验Gemini Live，该服务支持10种语音和45种语言，谷歌计划在未来几周内将其扩展到iOS系统和增加更多语言支持。

Gemini Live的发布被视为谷歌在智能语音助手领域的一次重要进展，它不仅展示了谷歌在AIGC领域的专业能力，也体现了公司在大语言模型和语音助手应用落地方面的积极探索。尽管在演示中出现了小插曲，但Gemini Live的直接演示方式和最终的成功回答，展现了谷歌在技术演示上的真诚和勇气，赢得了观众的认可。随着Gemini Live功能的不断完善和扩展，它有望成为用户日常生活中的得力助手。