标签:注意力机制

梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...

发论文亲自上?创业十多年,DeepSeek梁文锋的“技术男”属性从没改变

DeepSeek团队近日发布新论文,提出名为Native Sparse Attention(NSA)的新型注意力机制。该机制通过动态分层稀疏策略,结合粗粒度标记压缩与细粒度标记选择...

杨植麟和梁文锋,论文撞车了

在马斯克发布Grok3的同一天,DeepSeek与月之暗面分别发布论文,针对Transformer架构的核心注意力机制提出创新方案。DeepSeek的原生稀疏注意力(NSA)通过语义...

Transformer继任者「Titans」来了,上下文记忆瓶颈被打破

谷歌推出了一种新的AI架构——Titans,旨在解决现有注意力机制无法扩展到长上下文的问题。Titans结合了注意力机制和元上下文记忆,能够处理长达200万tokens的上...

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

近期,阶跃星辰与清华大学等机构合作的论文《Multi-matrix Factorization Attention》提出了一种新型注意力机制架构——多矩阵分解注意力(MFA)及其变体MFA-Ke...

时隔6年,谷歌BERT终于有替代品了!更快更准更长,还不炒作GenAI

新型AI研发实验室Answer.AI和英伟达等近日发布了ModernBERT,这是一个在速度和准确率上显著改进的模型系列,包含基础版139M和较大版395M两个型号。ModernBERT...

LSTM之父:我也是注意力之父!1991年就发表线性复杂度,遥遥领先Transformer 26年

自2017年Transformer模型问世以来,其核心机制“注意力”已成为AI领域的核心技术,尤其在自然语言处理中占据主导地位。然而,关于注意力机制的起源存在争议。一...

被忽略的起点?Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事

AI研究者Andrej Karpathy最近在推特上分享了注意力机制背后的故事,揭示了这一概念的起源和发展。他指出,Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio的...

新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性

机器之心报道了PyTorch团队为解决注意力机制实现中的超立方体问题而引入的FlexAttention。注意力机制在机器学习中至关重要,但现有的实现如FlashAttention虽...

Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

FlashAttention-3是针对H100 GPU优化的第三代FlashAttention技术,它在前一代的基础上实现了1.5至2倍的速度提升,将H100 GPU的FLOPs利用率提高到了75%。Flash...
1 2