文章摘要
【关 键 词】 AI助理、实时交互、端侧模型、视频通话、智能硬件
OpenAI去年推出的“4o”模型具备实时语音交互能力,被视为模型“长出了耳朵和嘴巴”。去年12月,该模型增加了视频通话和屏幕共享功能,相当于“长出了眼睛”,使得电影《Her》中的人工智能助理逐渐成为现实。国内大模型公司也在加快布局这一技术方向。面壁智能推出了全球首个媲美“4o”的端侧模型“MiniCPM-o 2.6”,仅8B参数,能在端侧实现实时流畅的音视频通话,团队称该模型能实现“以端胜云”的效果。智谱推出了全新端到端模型“GLM-Realtime”,能实现低延迟的视频理解与语音交互,同时模型融入了清唱功能,还能支持2分钟的记忆及Function Call功能。这些模型的推出,一方面是因为它们是打造人工智能超级助理(AI Agent)的重要一环,另一方面它们可能也是AI硬件进化的关键。
近期AI硬件火热的背后,在于它展现出了成为下一代智能交互入口的可能。作为最靠近人类的设备,AI硬件能感知真实物理世界、收集数据,再通过内嵌的智能,有望给人类带来交互的革命性体验。而这个过程里,“看”是相当关键的,因为人类接收的信息里约80%来自视觉,因此,解锁实时视频能力的“4o”系列模型或将成为技术关键。目前,“MiniCPM-o 2.6”和“GLM-Realtime”都已经在硬件落地,分别是端侧部署、调用云端API。据面壁智能介绍,“MiniCPM-o 2.6”将率先落地于汽车、机器人等硬件生态。据智谱介绍,“GLM-Realtime”API已被集成到智能眼镜和陪伴娃娃中。
面壁智能的“MiniCPM-o 2.6”在实时流式视频理解能力、视觉理解能力、语音理解、语音生成等方面均逼近“4o”。智谱的“GLM-Realtime”则具备2分钟的内容记忆能力,在语音交互方面,它首次让大模型拥有了歌唱能力。无论是云侧还是端侧模型,追逐模型性能的同时,同等重要的是如何用更高效的训练完成它。面壁智能通过提高模型训练效率,用最小参数、实现同等模型性能。智谱则通过研究MOE架构的上限,让模型能以较少的激活参数量达到更好的效果。
AI硬件大火的背后,是它展现出了成为下一代交互入口的可能。作为最靠近人类的设备,AI硬件能感知真实物理世界、收集数据,再通过内嵌的智能,有望给人类带来交互的革命性体验。在这个过程中,“看”是相当关键的,因为人类接收的信息里约80%来自视觉,因此,解锁实时视频能力的“4o”系列模型或将成为技术关键。目前,“MiniCPM-o 2.6”和“GLM-Realtime”模型落地的第一站都是硬件。据智谱介绍,“GLM-Realtime”API已被集成到智能眼镜和陪伴娃娃中。据面壁智能介绍,“MiniCPM-o 2.6”将率先落地于汽车、机器人等硬件生态。对这些硬件设备而言,加入“4o”系列模型的实时视频能力,将有助于它们的进化。
原文和模型
【原文链接】 阅读原文 [ 2540字 | 11分钟 ]
【原文作者】 极客公园
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆