标签:低秩压缩

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek-R1作为AI产业颠覆式创新的代表,其训练与推理成本仅为同等性能大模型的数十分之一,核心在于多头潜在注意力网络(MLA)。MLA通过对键值缓存进行低秩...