比OpenAI的Whisper快50%，最新开源语音模型

AIGC动态1年前 (2024)发布 AIGCOPEN

1,461 0 0

文章摘要

生成式AI公司aiOla在其官网开源了一款名为Whisper-Medusa的语音模型，该模型在推理效率上相较于OpenAI的Whisper模型提升了50%。Whisper-Medusa在Whisper的基础上进行了架构上的修改，引入了“多头注意力”机制，允许模型在每个推理步骤中并行预测多个token，同时保持性能和识别准确率。

传统的Transformer架构在生成序列时，遵循逐个token的顺序预测过程，这虽然能够确保生成序列的连贯性和上下文相关性，但极大限制了模型的推理效率，并且难以捕捉数据中的长程依赖关系，影响模型的整体性能和准确性。

Whisper-Medusa采用了10头的多注意力机制，每个注意力头可以独立地计算注意力分布并行地处理输入，然后将各自的输出通过拼接的方式组合起来，形成一个多维度的向量。这种并行的数据处理方式不仅加快了模型的推理效率，还增加了模型的表达能力，因为每个注意力头都可以专注于序列的不同子集，捕捉到更丰富的上下文信息。

为了使多头注意力机制在Whisper-Medusa模型中更高效地运行，aiOla采用了弱监督的方法，在训练过程中冻结了原Whisper模型的主要组件，使用该模型生成的音频转录作为伪标签来训练额外的token预测模块，使得模型即便没有大量手动人工标注数据的情况下，依然能够学习到有效的语音识别模式。

在训练过程中，Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。模型需要确保预测的token序列与实际转录尽可能一致，同时通过多头注意力机制的并行预测，模型被鼓励在保证精度的前提下，尽可能地加快预测效率。aiOla使用了学习率调度、梯度裁剪、正则化等多种方法，确保模型在训练过程中能够稳定收敛，同时避免过拟合。

Whisper-Medusa能够理解100多种语言，用户可以开发音频转录、识别等多种应用，适用于翻译、金融、旅游、物流、仓储等行业。aiOla表示，未来会将Whisper-Medusa的多注意力机制扩展至20个头，其推理效率将再次获得大幅度提升。

开源地址：https://github.com/aiola-lab/whisper-medusa
huggingface：https://huggingface.co/aiola/whisper-medusa-v1