耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

AIGC动态1年前 (2024)发布 almosthuman2014

3,527 0 0

文章摘要

字节跳动豆包大模型团队近期发布了名为Seed-TTS的语音生成大模型，该模型在生成与真人相似度极高的语音方面取得了显著成果。Seed-TTS能够根据文本生成具有原素材声音特征的全新语音，无论是中文还是英文，都能复刻发音者的特点。此外，Seed-TTS还支持音色定制，能够在声音中表现出人物的“娇嗔感”，并且能够根据小说情节和不同角色特质呈现对应的人物和情绪。

Seed-TTS的技术亮点在于其作为一个语音生成的基座模型，与传统的单一任务模型不同，它能够发出任何声音，并且允许在多个维度上进行操控，如方言、真人口癖等。团队在细节建模、自然度、稳定性、数据覆盖量级以及模型设计等方面克服了诸多挑战。Seed-TTS使用了远大于以往业界数据量级的数据，解决了数据质量和数量的平衡问题。

在技术层面，Seed-TTS尝试回答了过去未解决的问题，如语音建模适用的语言模型和扩散模型的选择、语音的表征设计、以及如何利用强化学习集成偏好信息等。Seed-TTS提供了基于语言模型和Diffusion技术方案，两者各有优势，未来有望继续融合。在解决技术难点方面，Seed-TTS在语音的Tokenizer设计、模型稳定性、数据准备等方面进行了深入探索。

Seed-TTS的研究价值在于其对语音生成领域的新思路和方法的探索，尤其是在AIGC大潮流下，语音生成与文本、图像生成的共通之处。此外，语音作为人类最直接的交互形式，其自然度对于实现真正的AI至关重要。Seed-TTS在小说电子书、角色设计、视频翻译、虚拟角色、播音、演员表达等领域都有广泛的应用空间。

团队在研究过程中注重真实案例的迭代和细节的打磨，以确保模型在各种场景下的稳定性和鲁棒性。团队成员具有专业、专注、团结的特质，希望通过多人合作将大模型做到极致。目前，Seed-TTS团队仍在持续招聘优秀人才，以推动语音生成技术的发展和应用。