AI文本转语音进入“Next Level”！独角兽ElevenLabs发布Eleven v3：狠狠拿捏情感控制

925 0 0

文章摘要

ElevenLabs最新发布的AI 语音合成模型Eleven v3，标志着文本转语音技术的显著进步。该模型支持70多种语言，包括中文，并能够进行多人对话，展现出丰富的情感表达和语气变化。官方称其为“迄今为止最具表现力的文本转语音模型”，这一声明在AI社区引发了广泛讨论。新模型不仅能够生成自然流畅的语音，还能通过音频标签精确控制情绪和音效，如笑声、耳语、枪声等，极大地增强了语音的表现力和真实感。

在声音选择方面，Eleven v3提供了22位配音演员的音色，用户可以根据需要选择适合的声音，并通过上传参考音频来调整生成声音的稳定性。模型支持三种不同的稳定性选项：Creative、Natural和Robust，分别对应不同的情感表现和稳定性水平。此外，模型还支持将同一音色切换成多种语言，尽管目前英语效果最佳，中文口音仍有改进空间。

情绪控制是Eleven v3的一大亮点，通过引入情感表达标签、音效标签和特殊标签，用户可以在文本中插入特定标签来控制语音的情感表达。例如，[laughs]标签可以生成笑声，[whispers]标签可以生成耳语效果。此外，标点符号在情绪传递中也起到了关键作用，省略号、大写字母和标准标点符号都能显著影响语音的节奏和情感表达。

多人对话功能的实现则更为简单，用户只需为每个说话者分配不同的语音即可。Eleven v3不仅支持单人语音生成，还能生成多人对话，极大地扩展了应用场景。与之前的v2版本相比，v3新增了多人对话功能，并提供了更多音频标签和语言选择，进一步提升了模型的实用性和表现力。

网友的实测反馈也证实了Eleven v3的出色表现，尤其是在情感表达和语言切换方面。尽管在某些特殊标签的使用上存在一些小瑕疵，如[whistle]标签生成的口哨声过短，但整体而言，模型在情感控制上已经相当成熟。不过，中文效果仍不及英文，这为国内语音厂商提供了改进和竞争的机会。

总的来说，Eleven v3在语音合成技术上的突破，尤其是在情感控制和多人对话方面的表现，为文本转语音应用开辟了新的可能性。尽管在中文处理上仍有改进空间，但其在英语和其他语言上的表现已经达到了令人惊叹的水平。