标签:长上下文建模

梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...