阿里开源新语音模型，比OpenAI的Whisper更好！

AIGC动态1年前 (2024)发布 AIGCOPEN

2,397 0 0

文章摘要

阿里巴巴公司在Qwen-Audio的基础上推出了新一代的开源语音模型Qwen2-Audio，该模型在多个方面进行了显著的优化和改进。Qwen2-Audio模型包含基础版和指令微调版，能够通过语音进行提问、内容识别和语音分析，支持中文、粤语、法语、英语和日语等多语言和方言，为翻译和情感分析等应用提供了便利。

与第一代Qwen-Audio相比，Qwen2-Audio在架构和性能上进行了大幅度的优化。在预训练阶段，Qwen2-Audio采用了自然语言提示，替代了之前的复杂分层标签系统，简化了模型的训练过程，提高了模型的泛化能力。此外，Qwen2-Audio在指令跟随能力上也有显著提升，通过增加指令调优和直接偏好优化等方法，能够更准确地理解用户的指令并提供恰当的响应。

Qwen2-Audio的功能也得到了扩展，支持语音聊天和音频分析两种模式。在语音聊天模式下，用户可以与模型进行自然的语音交互；在音频分析模式下，模型能够对各种类型的音频进行深入分析，提供详细准确的分析结果。此外，Qwen2-Audio还引入了监督式微调和直接偏好优化两种优化方法，进一步提高了模型的自然性和准确性。

在架构方面，Qwen2-Audio使用了OpenAI开源的Whisper-large-v3作为音频编码器，并采用了16kHz的采样频率和128通道的mel谱图来处理音频数据。通过引入池化层，模型能够有效地捕捉音频信号的特征，为后续的分析和理解提供了支持。

Qwen2-Audio使用了阿里自研的大模型Qwen-7B作为语言模型，能够根据输入的音频和文本数据生成相应的文本输出。当音频编码器对输入的音频信号进行特征提取后，这些特征会与之前的文本序列一起输入到大语言模型中，实现对音频信息的理解和处理。在生成文本输出时，大语言模型会根据对输入信息的理解，通过其所学到的语言知识和模式，生成准确的文本回复。

为了测试Qwen2-Audio的性能，阿里巴巴在多个主流基准上进行了综合评测。结果显示，Qwen2-Audio的整体性能非常强劲，在librispeech的test-clean和test-other数据集上分别达到了1.6%和3.6%的词错误率（WER）。在Fleurs的中文子集上，Qwen2-Audio的成绩优于OpenAI的Whisper-large-v3。在CoVoST2数据集上的语音翻译测试中，Qwen2-Audio在所有七个翻译方向上均大幅度领先于基线模型。在说话人识别（SER）和语音分割（VSC）测试中，Qwen2-Audio同样以显著的成绩胜出。

总的来说，Qwen2-Audio作为一款开源的语音模型，在多语言支持、性能优化、功能扩展等方面表现出色，为语音交互、音频分析等应用提供了强大的支持。随着技术的不断进步和优化，Qwen2-Audio有望在AIGC领域发挥更大的作用，推动相关技术和应用的发展。