文章摘要
【关 键 词】 语音模型、多头注意力、推理效率、开源项目、多语言支持
生成式AI公司aiOla在其官网开源了一款名为Whisper-Medusa的语音模型,该模型在推理效率上相较于OpenAI的Whisper模型提升了50%。Whisper-Medusa在Whisper的基础上进行了架构上的修改,引入了“多头注意力”机制,允许模型在每个推理步骤中并行预测多个token,同时保持性能和识别准确率。
传统的Transformer架构在生成序列时,遵循逐个token的顺序预测过程,这虽然能够确保生成序列的连贯性和上下文相关性,但极大限制了模型的推理效率,并且难以捕捉数据中的长程依赖关系,影响模型的整体性能和准确性。
Whisper-Medusa采用了10头的多注意力机制,每个注意力头可以独立地计算注意力分布并行地处理输入,然后将各自的输出通过拼接的方式组合起来,形成一个多维度的向量。这种并行的数据处理方式不仅加快了模型的推理效率,还增加了模型的表达能力,因为每个注意力头都可以专注于序列的不同子集,捕捉到更丰富的上下文信息。
为了使多头注意力机制在Whisper-Medusa模型中更高效地运行,aiOla采用了弱监督的方法,在训练过程中冻结了原Whisper模型的主要组件,使用该模型生成的音频转录作为伪标签来训练额外的token预测模块,使得模型即便没有大量手动人工标注数据的情况下,依然能够学习到有效的语音识别模式。
在训练过程中,Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。模型需要确保预测的token序列与实际转录尽可能一致,同时通过多头注意力机制的并行预测,模型被鼓励在保证精度的前提下,尽可能地加快预测效率。aiOla使用了学习率调度、梯度裁剪、正则化等多种方法,确保模型在训练过程中能够稳定收敛,同时避免过拟合。
Whisper-Medusa能够理解100多种语言,用户可以开发音频转录、识别等多种应用,适用于翻译、金融、旅游、物流、仓储等行业。aiOla表示,未来会将Whisper-Medusa的多注意力机制扩展至20个头,其推理效率将再次获得大幅度提升。
开源地址:https://github.com/aiola-lab/whisper-medusa
huggingface:https://huggingface.co/aiola/whisper-medusa-v1
原文和模型
【原文链接】 阅读原文 [ 1008字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆