2行代码与DeepSeek语音对话，1分钟不到一毛钱，所有大模型都能开口说话

1,654 0 0

文章摘要

DeepSeek开口说话了，并且实现了超低延迟实时秒回，用户可以随时打断对话。这一突破性进展得益于声网推出的对话式AI引擎，该引擎不仅价格低廉，每分钟仅需0.098元，还提供了极简的开发接入流程，开发者仅需两行代码即可将大模型接入语音交互应用。声网AI RTE产品线负责人姚光华在发布会上提到，用户与AI的每次对话平均时长为21.1秒，单次成本仅需3分钱，月成本不到5毛钱，年成本仅需5元。这种按用量付费的模式使得多模态AI交互服务能够服务百万级用户规模。

AI对话的流畅体验关键在于低延迟，声网对话式AI引擎的响应延迟中位数仅为650毫秒，远低于1.7秒的阈值，使得用户与AI的交流更加自然。此外，该引擎还支持用户随时打断AI的回应，打断响应低至340毫秒，模拟了人与人之间的自然对话节奏。在嘈杂环境下，声网的引擎能够屏蔽95%的环境噪声，精准识别对话人声，即使在网络信号不佳的环境下，也能保持对话的流畅性。声网通过其全球200多个数据中心和智能路由+抗弱网算法，确保了在各种复杂网络环境下的跨区域丝滑互动。

声网对话式AI引擎的极简接入流程使得开发者可以在15分钟内完成从零到部署一个基于大模型的对话式AI Agent的全过程。开发者可以通过声网Console后台自行开通服务、调参测试并生成代码，极大降低了技术门槛。此外，开发者可以根据应用场景需求自由选择和切换底层大模型，而无需改变前端交互逻辑。声网的RTC SDK支持30+平台开发框架，30000+终端机型适配，即使是中低端机型也适用。

声网对话式AI引擎的推出标志着语音交互即服务模式的诞生。通过将RTC技术与大模型技术解耦，声网为开发者提供了一个优质选择，使得大模型厂商无需再花时间精力自建语音交互体系。声网通过统一API接口广泛兼容模型，站稳了“AI语音交互中间件”这个新生态位。声网首席运营官刘斌在MEET2025智能未来大会上强调，任何涉及大模型多模态实时交互的应用都离不开RTC技术的支持。声网对话式AI引擎正在“让所有AI都能开口说话”，进一步推进整个生成式AI行业的变革。