仅听3秒,AI零样本克隆人声达到人类水平,情绪语调随意改

AIGC动态7个月前发布 QbitAI
697 0 0
仅听3秒,AI零样本克隆人声达到人类水平,情绪语调随意改

 

文章摘要


【关 键 词】 零样本语音合成NaturalSpeech 3微软研究情绪表达技术创新

微软联合中国科技大学、香港中文大学(深圳)和浙江大学等机构推出的NaturalSpeech 3系统,实现了零样本人类水平语音合成。该系统采用了属性分解扩散模型属性分解语音神经编解码器FACodec,能够在LibriSpeech数据集上达到人类录音的音质水平,并且可以给生成的人声带入不同的情绪,如“悲伤”或“恶心”。

NaturalSpeech 3系统的研究项目分为三个阶段:首先,实现单个说话人语音合成的高音质;其次,生成具有多样化特征的人类语音;最后,推出NaturalSpeech 3系统。这个系统在LibriSpeech数据集上的零样本语音合成已经达到了人类水平,无统计学显著差异。

NaturalSpeech 3的技术实现允许对生成的语音进行细致的属性控制,提供了对语音合成过程中各个维度的精准调节能力。用户可以通过指定具有特定特征的样本来引导语音生成过程,实现个性化和多样化的语音输出。

该系统的核心技术FACodec将复杂的语音波形转换为多个解耦子空间,代表语音的不同属性,如内容、韵律、音色和声学细节。这种设计使得FACodec能够更精准地控制和重构语音的各个方面,生成更自然、更高质量的语音输出。

NaturalSpeech 3还采用了属性分解扩散模型,通过使用统一的扩散模型并合集多个扩散阶段,分别针对音素持续时间、韵律、内容和声学细节进行建模。这种模块化的扩散模型架构提供了更高的灵活性和精确度,使得生成的语音既自然又富有表现力。

在实验验证中,NaturalSpeech 3在语音质量、相似性、韵律和可懂度方面均超越了现有最先进的TTS系统。此外,该系统的模型和数据量的扩展展示了强大的Scaling能力。

目前,开源项目Amphion已经支持NaturalSpeech 3的核心组件FACodec,并且已发布预训练模型。研究团队正在招聘相关方向的研究员和研究实习生,工作地点分别在西雅图和北京。有意向者可以联系谭旭(Xu Tan,xuta@microsoft.com)。相关的论文链接、Demo演示和FACodec的预训练模型及代码也已提供。

原文和模型


【原文链接】 阅读原文 [ 2105字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...