AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制

AIGC动态13小时前发布 QbitAI
103 0 0
AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制

 

文章摘要


【关 键 词】 AI语音合成情绪控制多人对话语言支持

ElevenLabs最新发布的AI语音合成模型Eleven v3,标志着文本转语音技术的显著进步。该模型支持70多种语言,包括中文,并能够进行多人对话,展现出丰富的情感表达和语气变化。官方称其为“迄今为止最具表现力的文本转语音模型”,这一声明在AI社区引发了广泛讨论。新模型不仅能够生成自然流畅的语音,还能通过音频标签精确控制情绪和音效,如笑声、耳语、枪声等,极大地增强了语音的表现力和真实感。

在声音选择方面,Eleven v3提供了22位配音演员的音色,用户可以根据需要选择适合的声音,并通过上传参考音频来调整生成声音的稳定性。模型支持三种不同的稳定性选项:Creative、Natural和Robust,分别对应不同的情感表现和稳定性水平。此外,模型还支持将同一音色切换成多种语言,尽管目前英语效果最佳,中文口音仍有改进空间。

情绪控制是Eleven v3的一大亮点,通过引入情感表达标签、音效标签和特殊标签,用户可以在文本中插入特定标签来控制语音的情感表达。例如,[laughs]标签可以生成笑声,[whispers]标签可以生成耳语效果。此外,标点符号在情绪传递中也起到了关键作用,省略号、大写字母和标准标点符号都能显著影响语音的节奏和情感表达。

多人对话功能的实现则更为简单,用户只需为每个说话者分配不同的语音即可。Eleven v3不仅支持单人语音生成,还能生成多人对话,极大地扩展了应用场景。与之前的v2版本相比,v3新增了多人对话功能,并提供了更多音频标签和语言选择,进一步提升了模型的实用性和表现力。

网友的实测反馈也证实了Eleven v3的出色表现,尤其是在情感表达和语言切换方面。尽管在某些特殊标签的使用上存在一些小瑕疵,如[whistle]标签生成的口哨声过短,但整体而言,模型在情感控制上已经相当成熟。不过,中文效果仍不及英文,这为国内语音厂商提供了改进和竞争的机会。

总的来说,Eleven v3在语音合成技术上的突破,尤其是在情感控制和多人对话方面的表现,为文本转语音应用开辟了新的可能性。尽管在中文处理上仍有改进空间,但其在英语和其他语言上的表现已经达到了令人惊叹的水平。

原文和模型


【原文链接】 阅读原文 [ 1232字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...