Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

AIGC动态2天前发布 QbitAI
38 0 0
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

 

文章摘要


【关 键 词】 注意力推理模型优化内存

研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention(GTA)和Grouped Latent Attention(GLA),旨在优化大语言模型的推理效率和硬件资源利用率。GTA通过分组共享键(Key)和值(Value)参数,减少内存传输次数,与已集成到LLaMA 3的GQA质量相当,但KV缓存用量减少约50%。GLA则采用双层结构,引入潜在Tokens作为全局上下文的压缩表示,减少每个设备需要加载的KV缓存量,与DeepSeek所使用的MLA质量匹配,但解码速度更快,某些情况下比FlashMLA快2倍。

在实验验证中,GTA和GLA在保持模型质量不变的情况下,显著提升了解码速度和吞吐量。GTA在中大型模型上优于GQA,表明其更适合模型的进一步扩展;GLA在多数场景下与MLA相当,验证了其设计的合理性。此外,GTA相比GQA减少约50%的KV缓存,而GLA在处理长上下文时,解码速度比FlashMLA快2倍,且在实时服务器性能测试中表现出更高的输出吞吐量。

这项研究的主要贡献在于重新设计了注意力机制,解决了大语言模型在推理阶段面临的内存冗余、计算低效和长上下文瓶颈等问题。通过优化内存使用和计算逻辑,GTA和GLA在不牺牲模型生成质量的前提下,显著提升了推理效率和硬件资源利用率,尤其在长上下文场景中优势更为突出。

研究团队由普林斯顿大学的三位研究者组成,包括Tri Dao、Ted Zadouri和Hubert Strauss。Tri Dao因提出优化Transformer模型注意力机制的工作而闻名学界,其参与的Mamba架构和FlashAttention系列工作对加速Transformers具有重要意义。这项研究被视为迈向“理想”推理架构的第一步,未来有望进一步推动大语言模型在推理效率上的优化。

原文和模型


【原文链接】 阅读原文 [ 2200字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...