文章摘要
【关 键 词】 实时互动、AI技术、多模态对话、RTE能力、AI基础设施
声网作为全球音视频技术龙头,在纳斯达克上市后,已成为全球最大的实时互动云服务商,单月音视频使用时长达700亿分钟。声网首席运营官刘斌在MEET 2025智能未来大会上分享了RTE(Real Time Engagement)在AI Agent时代的全新价值。刘斌指出,多模态对话体验的关键在于延迟是否低于1.7秒以及能否打断,而多模态对话AI Agent应用产品化落地的关键在于端到端、全球任意地点、弱网环境、各种终端下的低时延。无论是语音还是视频,多模态有交互的AI Agent应用都离不开RTE能力的支持。
声网与AI Agent的关系体现在其兄弟公司Agora成为OpenAI Realtime API的合作伙伴,同时声网也与MiniMax合作开发国内首个Realtime API。在AI Agent时代,声网通过其全球SD-RTN网络和多年技术积累,能够在极端弱网下保证效果,构建具有实际应用价值的Voice对话Agent。声网的产品体系不断加强,包括Linux SDK、AI VAD能力以及AI Agent Service的补充与优化,旨在成为生成式AI时代的AI基础设施。
刘斌强调,任何涉及大模型多模态实时交互的应用,都离不开RTC技术的支持。声网致力于优化人与人之间的对话体验,并在人与模型之间的对话中提升体验,充分考虑模型的特性。声网的愿景是通过RTE+AI能力全景图,从基础设施到Agent,再到场景的演进,成为AI基础设施的关键组成部分。
原文和模型
【原文链接】 阅读原文 [ 2433字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...