梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

文章摘要
【关 键 词】 注意力机制、长上下文建模、推理优化、硬件优化、性能评估
DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化计算模式,在解码阶段实现高达11.6倍的推理速度提升,同时显著降低预训练成本。NSA的硬件友好特性体现在采用Triton开发专用内核,通过组内数据加载、共享KV加载和网格循环调度等策略,达到接近最优的计算强度平衡。
在长上下文建模领域,传统注意力机制面临显著挑战。64k长度上下文的解码过程中,传统softmax注意力导致70-80%的总延迟,成为制约效率的主要瓶颈。NSA通过分层稀疏架构,在保留全局上下文感知能力的同时维持局部精确性,其粗粒度压缩策略可高效扫描全局信息,细粒度选择机制则精准捕捉关键token。这种设计在”大海捞针”测试中展现出优势,64k上下文检索精度达到行业领先水平。
性能评估显示,NSA在多项基准测试中超越现有方案。27B参数的混合专家模型测试中,NSA在9项指标中7项领先全注意力基线。长文本基准LongBench评测以0.469平均分刷新纪录,思维链推理任务中,NSA-R模型在8k和16k上下文设置下分别以0.075和0.054的准确率优势超越全注意力模型。训练过程曲线表明,NSA的预训练损失下降更稳定,收敛速度优于传统方法。
值得注意的是,NSA的数学推理能力验证了清华大学姚班早期研究结论。在处理四位数乘法任务时,NSA仅需2275个token即获正确答案,而基线方法消耗9392个token仍出错。这与姚班团队发现的Transformer架构缺陷形成对照——当计算复杂度提升时,传统模型准确率从三位数乘法的59%骤降至四位数的4%。DeepSeek通过优化token生成效率,成功突破这一限制。
技术对比实验揭示NSA的显著优势:在同等硬件条件下,其解题过程比GPT o3-mini缩短50%以上。这种效率提升源于对冗余计算的大幅削减,同时保持关键信息的完整处理。研究团队指出,NSA架构为代码库分析、长文档处理和多轮对话系统提供了新的技术路径,其硬件对齐特性也为未来大规模部署奠定基础。
原文和模型
【原文链接】 阅读原文 [ 2210字 | 9分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★