趣丸科技联合港中大（深圳）开源首个语音大模型

AIGC动态1年前 (2024)发布 TMTPOSTAGI

3,277 0 0

文章摘要

趣丸科技与香港中文大学（深圳）联合研发的语音大模型“MaskGCT”已在Amphion系统中开源，供全球用户使用。该模型采用掩码生成模型与语音表征解耦编码的创新范式，实现了在声音克隆、跨语种合成、语音控制等任务中的卓越效果。MaskGCT在三个TTS基准数据集上达到了SOTA效果，超越了当前最先进的同类模型，部分指标甚至超过了人类水平。

MaskGCT在语音相似度、质量和稳定性上实现了进一步突破，尤其在语音相似度方面处于领先地位。该模型已在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用，趣丸科技打造了多语种速译智能视听平台“趣丸千音”，通过一键上传视频即可快速翻译成多语种版本，并实现字幕修复与翻译、语音翻译、唇音同步等功能，大幅降低了人工翻译成本和制作周期。

MaskGCT是一个大规模的零样本TTS模型，采用非自回归掩码生成Transformer，无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。实验表明，MaskGCT在语音质量、相似度和可理解性方面优于当前最先进的TTS模型，并且在模型规模和训练数据量增加时表现更佳，同时能够控制生成语音的总时长。

MaskGCT模型由四个主要组件组成：1. 语音语义表示编解码器：将语音转换为语义标记。2. 语音声学编解码器：从声学标记重建波形。3. 文本到语义模型：使用文本和提示语义标记预测语义标记。4. 语义到声学模型：基于语义标记预测声学标记。

《2024年短剧出海白皮书》显示，2023年海外市场规模高达650亿美元，约为国内市场的12倍，短剧出海成为蓝海新赛道。以“趣丸千音”为代表的产品的出现，将加速国产短剧“走出去”，进一步推动中华文化在全球不同语境下的传播。