全球首个对话式 AI 引擎发布，15分钟构建的AI对话1分钟不到1毛钱｜钛媒体AGI

1,551 0 0

文章摘要

实时互动技术公司声网在北京发布了全球首个对话式AI 引擎，该引擎具备650ms超低延时响应、优雅打断、全模型适配以及“选择性注意力锁定”功能，能够屏蔽95%的环境人声。仅需两行代码和15分钟，用户即可构建AI Agent，实现从对话式AI引擎Console到任意模型开口说话，并支持将文本大模型升级为对话式多模态大模型。价格方面，每分钟使用成本仅为0.098元，单次对话成本约为3分钱，月成本不到5毛钱，年成本仅需5元。声网AI RTE产品线负责人姚光华表示，这款产品是团队在春节期间快速研发的成果，并于2月18日发布了Public Beta版本，如今正式对外推出。

姚光华强调，对话式AI引擎与Manus AI Agent在底层逻辑上存在本质区别。对话式AI引擎的核心在于通过对话产生情绪价值，未来可能超越工具属性，成为陪伴式产品；而Manus AI Agent目前仍被视为工具，主要用于替换现有工具的功能。声网致力于打造“人工智能语音代理的关键基础设施”，其TEN服务已应用于DeepSeek、阿里通义Qwen、阶跃星辰Step、MiniMax等多家AI企业和产品。例如，声网与MiniMax合作打磨了国内首个Realtime API。

2024年四季度，声网母公司Agora, Inc.实现总营收3450万美元，同比下降4.4%，但在美国通用会计准则下净利润为16万美元，实现扭亏为盈。2024财年，集团总营收为1.333亿美元，较上年同期下降5.9%。姚光华指出，对话式Agent为用户带来的价值包括智能价值、情绪价值和时间价值。Agent AI从感知到智能分为四层：模态感知层、模态融合层、任务处理层和智能层。声网对话式AI引擎覆盖了模态感知层和模态融合层，能够处理音视频信息并进行多模态融合。

关于大模型“幻觉”问题，声网产品负责人和利鹏表示，完全消除“幻觉”是不可能的，但可以通过模型迭代、降噪和声音处理等技术手段减少其影响。上下文增多和推理CoT（思维链）的加强是减少模型“幻觉”的重要方案。姚光华补充道，对话式AI引擎可广泛应用于陪伴式智能硬件和教育场景。

声网创始人兼CEO赵斌表示，生成式AI为实时语音交互带来了变革性机遇。许多大型语言模型尚未优化语音交互体验，而声网的对话式AI引擎旨在提供自然的对话动态，包括智能停顿、打断处理和超低延迟。赵斌强调，从AI推理模型到谷歌多模态的突破性发展为声网业务带来了非凡机遇，这一创新将加速对话式AI在各行业的应用渗透，成为公司未来增长的核心驱动力。