文章摘要
【关 键 词】 智能助手、多模态、谷歌产品、语音交互、日程管理
在2024年的“Made by Google”大会上,谷歌公司发布了一款名为Gemini Live的智能语音助手。这款助手具备多模态能力,能够理解自然语言提问,识别图像、视频和语音,与OpenAI的GPT-4o语音模式相类似。Gemini Live的交互功能允许用户像与朋友聊天一样随时打断对话,同时,用户可以授权助手访问邮箱、地图和通讯录等个人信息,实现自动化的日程安排和任务处理。
谷歌在发布Gemini Live时,已经明确表示该助手将支持iOS系统,尽管具体时间尚未确定。在产品演示中,Gemini Live展现了其查看日历并回答用户问题的能力,尽管在演示过程中出现了短暂的无响应情况,但最终成功回答了主持人的提问,引起了现场观众的惊喜反应。
Gemini Live的使用方法简便,用户可以通过长按电源按钮或语音命令“Hey Google”来激活助手。除了理解多种媒体格式,Gemini Live还能够生成图片,如为生日庆祝生成图片,并可在谷歌生态中的应用中直接使用。
谷歌已经将Gemini Live与邮件、云盘、相册、天气等原生应用进行了集成,并计划未来扩展到Keep、Tasks、Utilities等应用,以帮助用户自动完成更多日常任务。目前,安卓手机的Gemini Advanced英文版订阅用户已经可以体验Gemini Live,该服务支持10种语音和45种语言,谷歌计划在未来几周内将其扩展到iOS系统和增加更多语言支持。
Gemini Live的发布被视为谷歌在智能语音助手领域的一次重要进展,它不仅展示了谷歌在AIGC领域的专业能力,也体现了公司在大语言模型和语音助手应用落地方面的积极探索。尽管在演示中出现了小插曲,但Gemini Live的直接演示方式和最终的成功回答,展现了谷歌在技术演示上的真诚和勇气,赢得了观众的认可。随着Gemini Live功能的不断完善和扩展,它有望成为用户日常生活中的得力助手。
原文和模型
【原文链接】 阅读原文 [ 1287字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆