2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都能开口说话

AI-Agent3天前发布 QbitAI
109 0 0
2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都能开口说话

 

文章摘要


【关 键 词】 AI语音交互低延迟多模态开发者

DeepSeek开口说话了,并且实现了低延迟实时秒回,用户可以随时打断对话。这一突破性进展得益于声网推出的对话式AI引擎,该引擎不仅价格低廉,每分钟仅需0.098元,还提供了极简的开发接入流程,开发者仅需两行代码即可将大模型接入语音交互应用。声网AI RTE产品线负责人姚光华在发布会上提到,用户与AI的每次对话平均时长为21.1秒,单次成本仅需3分钱,月成本不到5毛钱,年成本仅需5元。这种按用量付费的模式使得多模态AI交互服务能够服务百万级用户规模。

AI对话的流畅体验关键在于低延迟,声网对话式AI引擎的响应延迟中位数仅为650毫秒,远低于1.7秒的阈值,使得用户与AI的交流更加自然。此外,该引擎还支持用户随时打断AI的回应,打断响应低至340毫秒,模拟了人与人之间的自然对话节奏。在嘈杂环境下,声网的引擎能够屏蔽95%的环境噪声,精准识别对话人声,即使在网络信号不佳的环境下,也能保持对话的流畅性。声网通过其全球200多个数据中心和智能路由+抗弱网算法,确保了在各种复杂网络环境下的跨区域丝滑互动。

声网对话式AI引擎的极简接入流程使得开发者可以在15分钟内完成从零到部署一个基于大模型的对话式AI Agent的全过程。开发者可以通过声网Console后台自行开通服务、调参测试并生成代码,极大降低了技术门槛。此外,开发者可以根据应用场景需求自由选择和切换底层大模型,而无需改变前端交互逻辑。声网的RTC SDK支持30+平台开发框架,30000+终端机型适配,即使是中低端机型也适用。

声网对话式AI引擎的推出标志着语音交互即服务模式的诞生。通过将RTC技术与大模型技术解耦,声网为开发者提供了一个优质选择,使得大模型厂商无需再花时间精力自建语音交互体系。声网通过统一API接口广泛兼容模型,站稳了“AI语音交互中间件”这个新生态位。声网首席运营官刘斌在MEET2025智能未来大会上强调,任何涉及大模型多模态实时交互的应用都离不开RTC技术的支持。声网对话式AI引擎正在“让所有AI都能开口说话”,进一步推进整个生成式AI行业的变革。

原文和模型


【原文链接】 阅读原文 [ 1675字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...