全球首个对话式 AI 引擎发布,15分钟构建的AI对话1分钟不到1毛钱|钛媒体AGI

AI-Agent3天前发布 TMTPOSTAGI
162 0 0
全球首个对话式 AI 引擎发布,15分钟构建的AI对话1分钟不到1毛钱|钛媒体AGI

 

文章摘要


【关 键 词】 AI引擎对话技术声网

实时互动技术公司声网在北京发布了全球首个对话式AI引擎,该引擎具备650ms超低延时响应、优雅打断、全模型适配以及“选择性注意力锁定”功能,能够屏蔽95%的环境人声。仅需两行代码和15分钟,用户即可构建AI Agent,实现从对话式AI引擎Console到任意模型开口说话,并支持将文本大模型升级为对话式多模态大模型。价格方面,每分钟使用成本仅为0.098元,单次对话成本约为3分钱,月成本不到5毛钱,年成本仅需5元。声网AI RTE产品线负责人姚光华表示,这款产品是团队在春节期间快速研发的成果,并于2月18日发布了Public Beta版本,如今正式对外推出。

姚光华强调,对话式AI引擎与Manus AI Agent在底层逻辑上存在本质区别。对话式AI引擎的核心在于通过对话产生情绪价值,未来可能超越工具属性,成为陪伴式产品;而Manus AI Agent目前仍被视为工具,主要用于替换现有工具的功能。声网致力于打造“人工智能语音代理的关键基础设施”,其TEN服务已应用于DeepSeek、阿里通义Qwen、阶跃星辰Step、MiniMax等多家AI企业和产品。例如,声网与MiniMax合作打磨了国内首个Realtime API。

2024年四季度,声网母公司Agora, Inc.实现总营收3450万美元,同比下降4.4%,但在美国通用会计准则下净利润为16万美元,实现扭亏为盈。2024财年,集团总营收为1.333亿美元,较上年同期下降5.9%。姚光华指出,对话式Agent为用户带来的价值包括智能价值、情绪价值和时间价值。Agent AI从感知到智能分为四层:模态感知层、模态融合层、任务处理层和智能层。声网对话式AI引擎覆盖了模态感知层和模态融合层,能够处理音视频信息并进行多模态融合。

关于大模型“幻觉”问题,声网产品负责人和利鹏表示,完全消除“幻觉”是不可能的,但可以通过模型迭代、降噪和声音处理等技术手段减少其影响。上下文增多和推理CoT(思维链)的加强是减少模型“幻觉”的重要方案。姚光华补充道,对话式AI引擎可广泛应用于陪伴式智能硬件和教育场景。

声网创始人兼CEO赵斌表示,生成式AI为实时语音交互带来了变革性机遇。许多大型语言模型尚未优化语音交互体验,而声网的对话式AI引擎旨在提供自然的对话动态,包括智能停顿、打断处理和超低延迟。赵斌强调,从AI推理模型到谷歌多模态的突破性发展为声网业务带来了非凡机遇,这一创新将加速对话式AI在各行业的应用渗透,成为公司未来增长的核心驱动力。

原文和模型


【原文链接】 阅读原文 [ 1397字 | 6分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...