
文章摘要
【关 键 词】 稀疏注意、长文本、计算优化、模型架构、思维链
2月18日,DeepSeek与月之暗面同时发布针对Transformer注意力机制改进的研究成果,聚焦于降低计算复杂度并提升长文本处理效率。这一技术竞争凸显了行业对高效长上下文建模的迫切需求,也标志着模型架构创新进入关键阶段。两篇论文均围绕稀疏注意力展开,通过算法优化将计算复杂度从O(n²)降至O(nlogn)甚至O(n),同时保持模型性能,为突破当前大语言模型的算力瓶颈提供了新思路。
DeepSeek提出的原生稀疏注意力机制NSA(Natively Trainable Sparse Attention)通过动态分层稀疏策略,结合粗粒度token压缩与细粒度token选择实现高效建模。其算法针对现代硬件优化计算强度,并通过端到端训练避免额外计算步骤。实验数据显示,在处理64k长度序列时,NSA在解码、前向传播和后向传播阶段分别实现2.5倍、3.1倍和2.8倍加速,同时在长文本生成、问答等任务中性能超越全注意力模型。这一突破表明,通过精准筛选关键信息交互,模型可在降低计算资源消耗的同时维持甚至提升任务表现。
月之暗面提出的混合块注意力MoBA(Mixture of Block Attention)采用动态注意力模式切换机制,借鉴专家混合(MoE)思想,允许模型自主决定全注意力与稀疏注意力的应用场景。MoBA在Kimi智能助手中的实践表明,该架构能快速定位长文本关键信息,例如在总结小说时有效提取核心情节。与全注意力模型对比,MoBA在8k和32k序列长度的语言模型损失曲线上表现相近,验证了其效率与性能的平衡能力。该设计解决了固定模式注意力(如窗口注意力)可能遗漏关键信息的缺陷,为长文本处理提供了更灵活的解决方案。
值得注意的是,这已是两家公司继思维链(CoT)技术创新后的第二次研究方向重合。此前DeepSeek R1与Kimi K1.5均通过强化学习优化模型推理能力,在数学解题与编程任务中展现显著优势,并获得OpenAI研究论文的引用认可。此次架构层面的同步突破,进一步揭示了行业技术演进的共性路径:在保持模型性能的前提下,通过算法重构实现计算效率的指数级提升,已成为下一代语言模型竞争的核心战场。
从技术演进趋势看,稀疏注意力机制正在从理论探索走向工程实践。NSA的硬件对齐设计与MoBA的动态适应性,分别代表了结构优化与模式创新的不同路径,但共同指向降低Transformer计算复杂度的终极目标。随着这些技术在Kimi等实际应用中的验证,大模型处理书籍级长文本、复杂逻辑推理等场景的可行性将显著增强,为AI落地开辟更广阔的空间。
原文和模型
【原文链接】 阅读原文 [ 3042字 | 13分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★