DeepSeek会说话了!只要2行代码,这家公司让任意大模型秒开口

AIGC动态16小时前发布 AIera
71 0 0
DeepSeek会说话了!只要2行代码,这家公司让任意大模型秒开口

 

文章摘要


【关 键 词】 多模态交互对话式AI实时语音智能伙伴AI普惠化

在AI行业的新赛道“多模态交互”中,声网推出了“对话式AI引擎”,使得所有文本大模型能够迅速获得实时语音对话能力,弥补了大模型在语音交互方面的不足。这一创新产品让任意大模型都能“开口说话”,包括DeepSeek等深度思考+联网模式的模型,提供了更具真实感的语音对话体验。

声网的对话式AI引擎能够实现DeepSeek模型的自我介绍、模仿李白风格写诗、预测未来行业趋势、共情能力展示等多种功能,且响应速度快,几乎无卡顿。对于开发者而言,接入该引擎非常简单,只需2行代码、15分钟即可完成,大幅降低开发成本,同时保持高度灵活性和可定制性。该引擎无需绑定公有云,用户有充分的选择自由,采用灵活可扩展的架构,兼容市场主流的ASR、LLM和TTS技术,并具备工作流编排能力。

声网对话式AI引擎的官方文档提供了简便的搭建智能体流程,从创建项目到获取App ID、开通对话式AI引擎,整个过程高效顺畅,无需复杂配置,几分钟即可完成。开发者可以在应用中加入RTC频道,调用创建对话式智能体接口API创建智能体实例,实现与智能体的实时语音互动。停止与智能体互动也很简单,只需向引擎的停止对话式智能体接口POST请求即可。

声网对话式AI引擎具备五大超能力,比ChatGPT更会聊。它能做到AI语音秒回,语音对话延迟低至650ms,全链路深度优化,让对话流畅自然。它还能锁定对话人声,屏蔽95%的环境人声、噪声干扰。对话式AI引擎误打断较ChatGPT大幅降低50%,对话节奏仿佛真人一般,可以随时打断,响应低至340ms。即使在80%丢包情况下,依然能稳定交流。声网全球首创的软件定义实时网已在全球200+国家和地区铺开,确保丝滑实时交互。声网RTC SDK支持30多个平台开发框架,适配30000+终端,中低端机型覆盖广泛,不存在无法兼容的问题。

未来,语言模型将不再是冰冷的AI系统,而会成为每个人生活中的“智能伙伴”。它不仅能执行指令,还能理解情感、预测需求,甚至在某些场景中成为用户情感价值的寄托。声网的创新将为整个行业带去更深远的影响和价值,通过提供标准化的交互能力,解决中小厂商被头部玩家“功能碾压”的焦虑。降低多模态交互技术门槛,让更多开发者能够专注于场景创新、业务模式探索,而不必陷入底层交互技术的泥潭。AI在多场景落地也会得到加速,AI智能助手、情感陪伴、AI口语陪练等应用场景,因获得高质量交互能力的支持,可以更快速地规模化部署。这种价值创造,正是AI普惠化的关键所在。随着交互基建的铺开,我们将看到更多AI应用从实验室走向生活,从冰冷的文本界面,演进为温暖自然的对话伙伴。在AI竞争下半场,语音交互也将成为一决胜负的关键砝码。

原文和模型


【原文链接】 阅读原文 [ 3993字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...