仅听3秒，AI零样本克隆人声达到人类水平，情绪语调随意改

AIGC动态1年前 (2024)发布 QbitAI

2,064 0 0

文章摘要

【关键词】 零样本语音合成、NaturalSpeech 3、微软研究、情绪表达、技术创新

微软联合中国科技大学、香港中文大学（深圳）和浙江大学等机构推出的NaturalSpeech 3系统，实现了零样本的人类水平语音合成。该系统采用了属性分解扩散模型和属性分解语音神经编解码器FACodec，能够在LibriSpeech数据集上达到人类录音的音质水平，并且可以给生成的人声带入不同的情绪，如“悲伤”或“恶心”。

NaturalSpeech 3系统的研究项目分为三个阶段：首先，实现单个说话人语音合成的高音质；其次，生成具有多样化特征的人类语音；最后，推出NaturalSpeech 3系统。这个系统在LibriSpeech数据集上的零样本语音合成已经达到了人类水平，无统计学显著差异。

NaturalSpeech 3的技术实现允许对生成的语音进行细致的属性控制，提供了对语音合成过程中各个维度的精准调节能力。用户可以通过指定具有特定特征的样本来引导语音生成过程，实现个性化和多样化的语音输出。

该系统的核心技术FACodec将复杂的语音波形转换为多个解耦子空间，代表语音的不同属性，如内容、韵律、音色和声学细节。这种设计使得FACodec能够更精准地控制和重构语音的各个方面，生成更自然、更高质量的语音输出。

NaturalSpeech 3还采用了属性分解扩散模型，通过使用统一的扩散模型并合集多个扩散阶段，分别针对音素持续时间、韵律、内容和声学细节进行建模。这种模块化的扩散模型架构提供了更高的灵活性和精确度，使得生成的语音既自然又富有表现力。

在实验验证中，NaturalSpeech 3在语音质量、相似性、韵律和可懂度方面均超越了现有最先进的TTS系统。此外，该系统的模型和数据量的扩展展示了强大的Scaling能力。

目前，开源项目Amphion已经支持NaturalSpeech 3的核心组件FACodec，并且已发布预训练模型。研究团队正在招聘相关方向的研究员和研究实习生，工作地点分别在西雅图和北京。有意向者可以联系谭旭（Xu Tan，xuta@microsoft.com）。相关的论文链接、Demo演示和FACodec的预训练模型及代码也已提供。