DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek的MLA,任意大模型都能轻松迁移了

 

文章摘要


【关 键 词】 大模型推理优化注意力机制低秩压缩迁移学习

DeepSeek-R1作为AI产业颠覆式创新的代表,其训练与推理成本仅为同等性能大模型的数十分之一,核心在于多头潜在注意力网络(MLA)。MLA通过对键值缓存进行低秩压缩,显著降低了推理成本。然而,现有主流大模型仍基于标准注意力架构及其变种,推理成本相比MLA呈现显著劣势。将预训练的任意大语言模型(LLMs)快速迁移至MLA架构,既具有重大意义又极具挑战性。

复旦NLP实验室、华东师大、上海AI Lab、海康威视联合提出MHA2MLA框架,通过部分RoPE保留和键值联合表示低秩近似两个关键步骤,成功将任意MHA/GQA架构迁移到MLA。MHA与MLA在位置编码、缓存对象、参数矩阵和运算形式等方面存在显著差异,使得迁移过程复杂且具有挑战性。MHA2MLA通过部分RoPE保留分离出位置编码相关表示和无关表示,并通过SVD分解实现键值联合低秩表示,从而对齐MLA的缓存对象和运算形式。

实验表明,仅需使用预训练数据的0.3%到0.6%进行高效微调,即可基本还原架构迁移带来的性能损失。MHA2MLA还能结合其他高效推理技术,例如结合4-bit KV缓存量化,Llama2-7B减少了92.19% KV缓存,而LongBench上的性能仅下降0.5%。部分RoPE保留策略通过移除大量维度的RoPE,解决了MLA和RoPE冲突的问题。四种移除RoPE的策略中,S_{2-norm}策略因能自适应识别对模型性能关键的特征频率,被选为默认配置。

键值联合表示低秩近似通过SVD分解大幅减少缓存空间。SVD_joint方法因考虑键值矩阵之间的关联性,始终优于SVD_split方法。实验在多种规模的语言模型和不同压缩比例下评估了所提出的方法,结果表明,压缩比例越高,性能损失越大,原始模型参数越多,性能损失越小,揭示了MHA2MLA的潜在scaling law。MHA2MLA的微调数据量仅需预训练数据的0.3%~0.6%,避免了从头预训练MLA模型的高昂成本。

在LongBench长文本生成任务中,MHA2MLA在d_{kv}=16的情况下实现与2-bit量化相同的压缩比例,同时仅损失一半的性能;进一步结合4-bit量化后,压缩比例超过2-bit量化,性能损失优于所有2-bit的基线方法,证明了MHA2MLA能显著减少推理时的访存瓶颈。MHA2MLA展现了与现有压缩技术的强兼容性,同时保持了常识推理和长上下文处理能力,为部署资源高效的LLMs提供了一条实用路径。

未来工作将扩展至更多的基座模型,并结合参数高效微调策略,进一步降低架构迁移过程中的参数更新规模。

原文和模型


【原文链接】 阅读原文 [ 1963字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...