最难方言温州话被攻克！中国电信语音大模型支持30种方言，这题GPT-4o可不会做啊

AIGC动态1年前 (2024)发布 QbitAI

2,701 0 0

最难方言温州话被攻克！中国电信语音大模型支持30种方言，这题GPT-4o可不会做啊

文章摘要

中国电信人工智能研究院发布了一款能够识别和理解多达30种方言的语音大模型——“星辰语音大模型”。这一模型的核心功能主要体现在语音识别上，能够突破单一模型仅识别特定方言的局限，包括被认为是最难懂的温州话在内的多种方言均可识别。该模型在国际语音识别赛事中已获冠军认证，并在实际场景如智能客服和12345热线中成功落地应用。

在技术研发上，星辰语音大模型采用了超大规模语音预训练和多方言联合建模两项关键技术。为解决模型预训练中可能出现的坍缩问题，研发团队首创了“蒸馏+膨胀”联合训练算法，确保了模型稳定性。此外，多方言联合建模技术使得模型能够学习到各地方言之间的共性，大幅降低了新方言标注数据的需求。

中国电信选择专注于方言语音大模型的原因有三：一是技术价值驱动，希望通过大模型保护濒危方言，促进文化传承；二是业务需求导向，作为运营商，中国电信的核心业务场景之一是智能客服，而方言是客服沟通中的重要部分；三是战略部署，该模型是中国电信“通用智能”战略的一部分，旨在构建包含语义、语音、视觉及多模态的全模态大模型布局。此外，中国电信不仅在算力基础设施和数据积累上有显著优势，而且还拥有一支由AI领域顶尖科学家李学龙领衔的700人AI研发团队。

通过人才、技术和资源的整合，中国电信在人工智能领域积极投入，推动技术进步，并计划拓展模型以支持更多的地市方言和少数民族语言。

“星辰语音大模型”的开源发布，展现了国有运营商在技术创新上的实力与决心，而其在AI领域的落地应用及未来规划，也值得关注。“星辰语音大模型”的开源发布，展现了国有运营商在技术创新上的实力与决心，而其在AI领域的落地应用及未来规划，也值得关注。