
文章摘要
【关 键 词】 VibeVoice、音频模型、开源模型、语音合成、架构创新
微软研究院于今日凌晨开源创新音频模型VibeVoice – 1.5B,该模型在语音合成领域取得多项重大突破。它可一次性连续合成90分钟超长逼真语音,最多支持4名发言人,能对24kHz原始音频实现3200倍累计压缩,且压缩效率是主流Encodec模型的80倍,还通过首创双tokenizer协同架构解决了音色与语义不匹配问题。
开源地址为https://huggingface.co/microsoft/VibeVoice – 1.5B,在线demo地址为https://aka.ms/VibeVoice – Demo。文中展示了多个VibeVoice的应用案例,包括93分钟超长合成语音、老外教英语音频播客、西游记二创内容、带背景音乐的科技资讯介绍、体育资讯讨论以及拟人化语音效果等,语音效果自然丝滑。
在架构方面,VibeVoice首创双语音tokenizer模块。声学tokenizer负责保留声音特征并极致压缩,采用基于变分自编码器的对称编码 – 解码结构,解决了方差坍缩问题,实现超高压缩率。其编码器部分采用1D深度可分离因果卷积,支持流式处理,训练时引入双损失机制和固定方差分布策略,确保长音频生成的多样性与稳定性。语义tokenizer则提取与文本语义对齐的特征,架构与声学tokenizer编码器对应但去掉变分自编码器组件,以自动语音识别为代理任务进行训练,提升推理速度。
VibeVoice选用预训练的Qwen2.5大语言模型作为序列建模主体,对输入形式进行针对性设计,采用“角色标识 – 语音特征 – 文本脚本”交错拼接格式,实现多说话人的自然轮替。在训练与优化上,采用课程学习策略,逐步增加输入序列长度,只更新大语言模型与后续扩散头的参数,缩短训练周期50%。此外,微软表示VibeVoice – 1.5B只是试水,未来还会开源更大参数的语音模型。
原文和模型
【原文链接】 阅读原文 [ 1865字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★☆☆