微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
文章摘要
【关 键 词】 微软、TTS、人工智能、语音合成、FACodec
微软NaturalSpeech项目介绍
本文介绍了微软在文本到语音合成(TTS)领域的研究项目NaturalSpeech,该项目旨在通过生成式人工智能技术合成高质量自然的人类语音。近年来,随着大模型(LLM)时代的到来,语音合成技术得到了广泛关注,因为它可以扩展大模型的语音交互能力。
NaturalSpeech项目三个阶段
NaturalSpeech项目分为三个阶段。第一阶段,研究团队在2022年推出了NaturalSpeech 1,在LJSpeech语音合成数据集上达到了人类录音水平的音质。第二阶段,研究团队在2023年推出了NaturalSpeech 2,利用扩散模型实现了零样本(Zero-Shot)的语音合成。第三阶段,2024年,研究团队联合中科大、港中大(深圳)、浙大等机构发布了NaturalSpeech 3,通过属性分解扩散模型和属性分解语音神经编解码器FACodec,实现了零样本语音合成的重要突破。
NaturalSpeech 3的创新之处
NaturalSpeech 3的创新之处在于它能够通过仅3秒的提示音频在未见过的说话人上实现音色克隆,同时还原韵律、情感等特征。此外,它还可以对不同属性使用不同的提示,实现更可控的生成。NaturalSpeech 3的成功秘诀在于基于属性分解的Codec+Diffusion建模范式以及Data/Model Scaling。通过将训练数据扩展到20万小时和模型大小扩展到1B,NaturalSpeech 3在语音质量、相似性、韵律和可懂度方面均超越了现有的最先进TTS系统。
FACodec作为NaturalSpeech 3的核心
FACodec作为NaturalSpeech 3的核心,可以将复杂的语音波形转换成表示内容、韵律、音色和声学细节等属性的解耦表示,并从这些属性重构高质量的语音波形。目前,Amphion项目已经支持NaturalSpeech 3的核心组件FACodec,并发布了预训练模型。FACodec不仅在非自回归语音合成中取得了很好的结果,而且在自回归语音合成范式中也表现出显著效果。
招聘信息
NaturalSpeech 3的研究团队正在招聘音频(语音/音乐/音效)理解和生成、视频(虚拟人/通用视频)理解和生成、大模型等方向的研究员和研究实习生。工作地点分别为西雅图和北京。
线上分享活动
为了帮助大家更好地了解这项研究,机器之心邀请了NaturalSpeech项目作者进行线上分享,解读本项工作。感兴趣的读者可以关注机动组视频号,预约直播,并加入直播交流群进行探讨交流。
原文和模型
【原文链接】 阅读原文 [ 2024字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★