独家|豆包App小范围内测最新语音模式,实测中文对话「遥遥领先」

AIGC动态3小时前发布 Si-Planet
29 0 0
独家|豆包App小范围内测最新语音模式,实测中文对话「遥遥领先」

 

文章摘要


【关 键 词】 实时语音人机交互情感识别方言处理AI语音助手

豆包即将发布一款新的实时语音大模型,并计划在豆包App中全面上线实时语音通话功能。这款模型在人机语音交互方面取得了显著进步,特别是在中文场景下,展现出了强大的逼真性能。与传统的ASR+LLM+TTS级联方式不同,新模型通过统一建模语音生成和理解,实现了低延迟和流畅打断的实时交互。

在技术层面,豆包的新模型在声学特征的精确控制上取得了突破,能够同时调控音高、语速、音量等多个参数,以更复杂的方式捕捉和重现人类说话时的情感。这种分层设计的解决方案,通过多个模型的协同工作,逐步实现了从文本到情感,再到声音的转换,提升了实时性和自然度。

在自然度方面,豆包的新语音模型在情感部分有了质的飞跃,不仅在语气上有所变化,而且在语音表现和智力拟人性上也有所提升。例如,豆包能够用老北京话流畅地报菜名,展现了对节奏和儿化音的精准处理。在思辨性上,豆包展现出了对自我认知的理解和对用户需求的分析能力。

此外,豆包的新模型在方言、英文和模仿能力方面也有所表现,尽管粤语尚不标准,但已能进行基本对话。豆包还能够执行复杂指令,如创作包含特定词汇的歌曲,这考验了其语言理解和创作能力。在测试过程中,豆包展现了低延迟、随时打断对话的能力,提供了更加顺滑的实时体验。

总体而言,豆包的新语音对话模型在对话完成度上不逊色于GPT-4o,尤其在中文语境下,对语气语调的把控、情感的细腻表达,以及丰富多样的语音技能,都展现出了独特的优势。这种优势不仅体现在基础对话能力上,更反映在对中文文化内涵的深度理解和精准表达上。豆包的新模型预示着AI交互正在进入一个全新的阶段,国产的高智能AI语音助手可能即将诞生。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1349字 | 6分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...