豆包全新端到端语音功能上线！智商情商双在线，中文语音对话断崖式领先

AIGC动态4小时前发布 almosthuman2014

25 0 0

文章摘要

豆包APP最新推出了端到端实时语音通话功能，该功能全量开放且免费使用，标志着AI语音通话技术的重大进步。豆包的语音模型在拟人化方面表现出色，无论是遣词造句、语气还是呼吸节奏都高度接近人类，尤其在中文对话中展现出断层式领先优势。豆包不仅能够理解用户的深层含义，还能迅速给出有趣且有用的回复，具备联网查询能力。

用户需将豆包APP升级至7.2.0新春版本才能体验这一功能。豆包实时语音大模型在多个维度上进行了考评，整体满意度评分为4.36（满分5分），远超GPT-4o的3.18分。豆包在情绪理解和情感表达方面优势明显，尤其在“一听就是AI与否”的评测中，豆包的比例仅为2%，远低于GPT-4o的30%。

豆包的拟人程度和自然程度超出想象，擅长感知和承接人类用户的情绪。它在声音中表现出复杂情感，达到“人机难辨”的程度。豆包的指令遵循能力强，能够根据用户的语速和情绪背诵诗文。共情能力也很强，能够根据用户的情绪变化调整语气。

豆包的实时语音大模型基于强大的语义理解和信息检索能力，确保输出信息的有用性和真实性。它不仅提供情绪陪伴，还能给出实用的建议和即时信息。豆包还支持角色扮演和讲故事，甚至推出了GPT-4o没有的唱歌功能。

豆包的技术团队通过数据和后训练算法确保多模态语音对话数据兼具语义正确性与表现力的自然性。他们还定期对模型进行多维度评测，及时调整训练策略和数据使用方式，确保模型在智商和表现力之间保持良好平衡。

豆包的端到端实时语音功能是行业内首次给AI注入“灵魂”，实现了“情商”和“智商”的双商在线。这不仅意味着传统语音助手时代的结束，也预示着人与AI之间情感连接的开始。豆包的这一创新技术不仅颠覆了现有的交互方式，也为未来的人机交互提供了新的可能性。