标签:注意力机制
DeepSeek的MLA,任意大模型都能轻松迁移了
DeepSeek-R1作为AI产业颠覆式创新的代表,其训练与推理成本仅为同等性能大模型的数十分之一,核心在于多头潜在注意力网络(MLA)。MLA通过对键值缓存进行低秩...
标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源
华为、港大等机构的研究团队提出了一种基于自然语言分隔符的新型大语言模型SepLLM,通过将文本语义信息压缩至标点符号中,显著提升了训练推理效率。该方法发...
YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世
YOLOv12通过引入创新的注意力机制和结构优化,显著提升了实时目标检测的性能与效率。该模型由纽约州立大学布法罗分校和中国科学院大学的研究团队联合开发,旨...
梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍
DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...
发论文亲自上?创业十多年,DeepSeek梁文锋的“技术男”属性从没改变
DeepSeek团队近日发布新论文,提出名为Native Sparse Attention(NSA)的新型注意力机制。该机制通过动态分层稀疏策略,结合粗粒度标记压缩与细粒度标记选择...
杨植麟和梁文锋,论文撞车了
在马斯克发布Grok3的同一天,DeepSeek与月之暗面分别发布论文,针对Transformer架构的核心注意力机制提出创新方案。DeepSeek的原生稀疏注意力(NSA)通过语义...
Transformer继任者「Titans」来了,上下文记忆瓶颈被打破
谷歌推出了一种新的AI架构——Titans,旨在解决现有注意力机制无法扩展到长上下文的问题。Titans结合了注意力机制和元上下文记忆,能够处理长达200万tokens的上...
阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增
近期,阶跃星辰与清华大学等机构合作的论文《Multi-matrix Factorization Attention》提出了一种新型注意力机制架构——多矩阵分解注意力(MFA)及其变体MFA-Ke...
时隔6年,谷歌BERT终于有替代品了!更快更准更长,还不炒作GenAI
新型AI研发实验室Answer.AI和英伟达等近日发布了ModernBERT,这是一个在速度和准确率上显著改进的模型系列,包含基础版139M和较大版395M两个型号。ModernBERT...
LSTM之父:我也是注意力之父!1991年就发表线性复杂度,遥遥领先Transformer 26年
自2017年Transformer模型问世以来,其核心机制“注意力”已成为AI领域的核心技术,尤其在自然语言处理中占据主导地位。然而,关于注意力机制的起源存在争议。一...