车圈最大AI「黑马」吉利:自研语音大模型登顶,性能超SOTA 10%

AIGC动态3个月前发布 QbitAI
839 0 0
车圈最大AI「黑马」吉利:自研语音大模型登顶,性能超SOTA 10%

 

文章摘要


【关 键 词】 语音合成智能座舱跨语种音色一致技术突破

吉利汽车在语音合成技术领域取得了显著进展,其自研的HAM-TTS大模型在发音准确性、自然度和说话人相似度上超越了此前的SOTA成果VALL-E。HAM-TTS全称为Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech,是一种基于token的零样本文字转语音分层声学建模技术。

该技术在智能座舱交互体验中扮演着关键角色,特别是在发音环节。HAM-TTS模型在发音准确度上通过Character Error Rate(CER)评判,相较于VALL-E模型,字符错误率下降了1.5%至2.3%。此外,在说话风格一致性、音调一致性以及整体得分上,HAM-TTS模型提升了约10%。

HAM-TTS模型支持跨语种无缝切换,无论是中文还是英文,都能保持音色一致性。它还支持多种方言合成,包括四川话、粤语、东北话等,甚至支持日韩及东南亚跨语种语音合成。模型的声音复刻能力也得到了显著提升,仅需3秒钟的样本输入,远低于行业普遍的10秒样本需求。

吉利的HAM-TTS模型采用了分层声学建模方法,引入了Text-to-LVS predictor来预测隐变量,这些隐变量包含了重要的声学信息和语义信息。在训练阶段,模型还引入了一个对齐器(Text-HuBERT Aligner)来生成监督LVS,辅助Text-to-LVS predictor的训练。此外,模型还采用了基于UNet架构的声音转换预训练模型,生成大量具有不同音色但内容相同的合成语音数据,以增加训练数据的多样性和数量。

吉利的这一技术突破不仅提升了智能座舱的用户体验,还展示了其在智能化领域的技术实力。吉利的星睿AI大模型体系包括语言大模型、多模态大模型、数字孪生大模型等,构建了智能汽车的AI技术基础。此外,吉利在算力方面也有所提升,其云端总算力已从81亿亿次/秒扩容到102亿亿次/秒。

吉利的技术进步不仅体现在汽车业务上,还在卫星、芯片、操作系统等核心科技领域展现了其领导地位。这一成就标志着吉利在电动化和智能化领域的双重成功,为行业提供了新的解决方案选择。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3500字 | 14分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...