微软NaturalSpeech语音合成推出第三代，网友惊呼：超自然！实至名归

AIGC动态1年前 (2024)更新 almosthuman2014

1,954 0 0

文章摘要

微软NaturalSpeech项目介绍

本文介绍了微软在文本到语音合成（TTS）领域的研究项目NaturalSpeech，该项目旨在通过生成式人工智能技术合成高质量自然的人类语音。近年来，随着大模型（LLM）时代的到来，语音合成技术得到了广泛关注，因为它可以扩展大模型的语音交互能力。

NaturalSpeech项目三个阶段

NaturalSpeech项目分为三个阶段。第一阶段，研究团队在2022年推出了NaturalSpeech 1，在LJSpeech语音合成数据集上达到了人类录音水平的音质。第二阶段，研究团队在2023年推出了NaturalSpeech 2，利用扩散模型实现了零样本（Zero-Shot）的语音合成。第三阶段，2024年，研究团队联合中科大、港中大（深圳）、浙大等机构发布了NaturalSpeech 3，通过属性分解扩散模型和属性分解语音神经编解码器FACodec，实现了零样本语音合成的重要突破。

NaturalSpeech 3的创新之处

NaturalSpeech 3的创新之处在于它能够通过仅3秒的提示音频在未见过的说话人上实现音色克隆，同时还原韵律、情感等特征。此外，它还可以对不同属性使用不同的提示，实现更可控的生成。NaturalSpeech 3的成功秘诀在于基于属性分解的Codec+Diffusion建模范式以及Data/Model Scaling。通过将训练数据扩展到20万小时和模型大小扩展到1B，NaturalSpeech 3在语音质量、相似性、韵律和可懂度方面均超越了现有的最先进TTS系统。

FACodec作为NaturalSpeech 3的核心

FACodec作为NaturalSpeech 3的核心，可以将复杂的语音波形转换成表示内容、韵律、音色和声学细节等属性的解耦表示，并从这些属性重构高质量的语音波形。目前，Amphion项目已经支持NaturalSpeech 3的核心组件FACodec，并发布了预训练模型。FACodec不仅在非自回归语音合成中取得了很好的结果，而且在自回归语音合成范式中也表现出显著效果。