独家｜豆包App小范围内测最新语音模式，实测中文对话「遥遥领先」

5,606 0 0

文章摘要

豆包即将发布一款新的实时语音大模型，并计划在豆包App中全面上线实时语音通话功能。这款模型在人机语音交互方面取得了显著进步，特别是在中文场景下，展现出了强大的逼真性能。与传统的ASR+LLM+TTS级联方式不同，新模型通过统一建模语音生成和理解，实现了低延迟和流畅打断的实时交互。

在技术层面，豆包的新模型在声学特征的精确控制上取得了突破，能够同时调控音高、语速、音量等多个参数，以更复杂的方式捕捉和重现人类说话时的情感。这种分层设计的解决方案，通过多个模型的协同工作，逐步实现了从文本到情感，再到声音的转换，提升了实时性和自然度。

在自然度方面，豆包的新语音模型在情感部分有了质的飞跃，不仅在语气上有所变化，而且在语音表现和智力拟人性上也有所提升。例如，豆包能够用老北京话流畅地报菜名，展现了对节奏和儿化音的精准处理。在思辨性上，豆包展现出了对自我认知的理解和对用户需求的分析能力。

此外，豆包的新模型在方言、英文和模仿能力方面也有所表现，尽管粤语尚不标准，但已能进行基本对话。豆包还能够执行复杂指令，如创作包含特定词汇的歌曲，这考验了其语言理解和创作能力。在测试过程中，豆包展现了低延迟、随时打断对话的能力，提供了更加顺滑的实时体验。

总体而言，豆包的新语音对话模型在对话完成度上不逊色于GPT-4o，尤其在中文语境下，对语气语调的把控、情感的细腻表达，以及丰富多样的语音技能，都展现出了独特的优势。这种优势不仅体现在基础对话能力上，更反映在对中文文化内涵的深度理解和精准表达上。豆包的新模型预示着AI交互正在进入一个全新的阶段，国产的高智能AI语音助手可能即将诞生。