车圈最大AI「黑马」吉利：自研语音大模型登顶，性能超SOTA 10%

AIGC动态2年前 (2024)发布 QbitAI

4,049 0 0

文章摘要

吉利汽车在语音合成技术领域取得了显著进展，其自研的HAM-TTS大模型在发音准确性、自然度和说话人相似度上超越了此前的SOTA成果VALL-E。HAM-TTS全称为Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech，是一种基于token的零样本文字转语音分层声学建模技术。

该技术在智能座舱交互体验中扮演着关键角色，特别是在发音环节。HAM-TTS模型在发音准确度上通过Character Error Rate（CER）评判，相较于VALL-E模型，字符错误率下降了1.5%至2.3%。此外，在说话风格一致性、音调一致性以及整体得分上，HAM-TTS模型提升了约10%。

HAM-TTS模型支持跨语种无缝切换，无论是中文还是英文，都能保持音色一致性。它还支持多种方言合成，包括四川话、粤语、东北话等，甚至支持日韩及东南亚跨语种语音合成。模型的声音复刻能力也得到了显著提升，仅需3秒钟的样本输入，远低于行业普遍的10秒样本需求。

吉利的HAM-TTS模型采用了分层声学建模方法，引入了Text-to-LVS predictor来预测隐变量，这些隐变量包含了重要的声学信息和语义信息。在训练阶段，模型还引入了一个对齐器（Text-HuBERT Aligner）来生成监督LVS，辅助Text-to-LVS predictor的训练。此外，模型还采用了基于UNet架构的声音转换预训练模型，生成大量具有不同音色但内容相同的合成语音数据，以增加训练数据的多样性和数量。

吉利的这一技术突破不仅提升了智能座舱的用户体验，还展示了其在智能化领域的技术实力。吉利的星睿AI大模型体系包括语言大模型、多模态大模型、数字孪生大模型等，构建了智能汽车的AI技术基础。此外，吉利在算力方面也有所提升，其云端总算力已从81亿亿次/秒扩容到102亿亿次/秒。

吉利的技术进步不仅体现在汽车业务上，还在卫星、芯片、操作系统等核心科技领域展现了其领导地位。这一成就标志着吉利在电动化和智能化领域的双重成功，为行业提供了新的解决方案选择。