阿里开源新语音模型,比OpenAI的Whisper更好!

AIGC动态5个月前发布 AIGCOPEN
871 0 0
阿里开源新语音模型,比OpenAI的Whisper更好!

 

文章摘要


【关 键 词】 语音模型多语言支持性能优化音频分析AIGC应用

阿里巴巴公司在Qwen-Audio的基础上推出了新一代的开源语音模型Qwen2-Audio,该模型在多个方面进行了显著的优化和改进。Qwen2-Audio模型包含基础版和指令微调版,能够通过语音进行提问、内容识别和语音分析,支持中文、粤语、法语、英语和日语等多语言和方言,为翻译和情感分析等应用提供了便利。

与第一代Qwen-Audio相比,Qwen2-Audio在架构和性能上进行了大幅度的优化。在预训练阶段,Qwen2-Audio采用了自然语言提示,替代了之前的复杂分层标签系统,简化了模型的训练过程,提高了模型的泛化能力。此外,Qwen2-Audio在指令跟随能力上也有显著提升,通过增加指令调优和直接偏好优化等方法,能够更准确地理解用户的指令并提供恰当的响应。

Qwen2-Audio的功能也得到了扩展,支持语音聊天和音频分析两种模式。在语音聊天模式下,用户可以与模型进行自然的语音交互;在音频分析模式下,模型能够对各种类型的音频进行深入分析,提供详细准确的分析结果。此外,Qwen2-Audio还引入了监督式微调和直接偏好优化两种优化方法,进一步提高了模型的自然性和准确性。

在架构方面,Qwen2-Audio使用了OpenAI开源的Whisper-large-v3作为音频编码器,并采用了16kHz的采样频率和128通道的mel谱图来处理音频数据。通过引入池化层,模型能够有效地捕捉音频信号的特征,为后续的分析和理解提供了支持。

Qwen2-Audio使用了阿里自研的大模型Qwen-7B作为语言模型,能够根据输入的音频和文本数据生成相应的文本输出。当音频编码器对输入的音频信号进行特征提取后,这些特征会与之前的文本序列一起输入到大语言模型中,实现对音频信息的理解和处理。在生成文本输出时,大语言模型会根据对输入信息的理解,通过其所学到的语言知识和模式,生成准确的文本回复。

为了测试Qwen2-Audio的性能,阿里巴巴在多个主流基准上进行了综合评测。结果显示,Qwen2-Audio的整体性能非常强劲,在librispeech的test-clean和test-other数据集上分别达到了1.6%和3.6%的词错误率(WER)。在Fleurs的中文子集上,Qwen2-Audio的成绩优于OpenAI的Whisper-large-v3。在CoVoST2数据集上的语音翻译测试中,Qwen2-Audio在所有七个翻译方向上均大幅度领先于基线模型。在说话人识别(SER)和语音分割(VSC)测试中,Qwen2-Audio同样以显著的成绩胜出。

总的来说,Qwen2-Audio作为一款开源的语音模型,在多语言支持性能优化、功能扩展等方面表现出色,为语音交互、音频分析等应用提供了强大的支持。随着技术的不断进步和优化,Qwen2-Audio有望在AIGC领域发挥更大的作用,推动相关技术和应用的发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1151字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...