标签:注意力机制

Transformer继任者「Titans」来了,上下文记忆瓶颈被打破

谷歌推出了一种新的AI架构——Titans,旨在解决现有注意力机制无法扩展到长上下文的问题。Titans结合了注意力机制和元上下文记忆,能够处理长达200万tokens的上...

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

近期,阶跃星辰与清华大学等机构合作的论文《Multi-matrix Factorization Attention》提出了一种新型注意力机制架构——多矩阵分解注意力(MFA)及其变体MFA-Ke...

时隔6年,谷歌BERT终于有替代品了!更快更准更长,还不炒作GenAI

新型AI研发实验室Answer.AI和英伟达等近日发布了ModernBERT,这是一个在速度和准确率上显著改进的模型系列,包含基础版139M和较大版395M两个型号。ModernBERT...

LSTM之父:我也是注意力之父!1991年就发表线性复杂度,遥遥领先Transformer 26年

自2017年Transformer模型问世以来,其核心机制“注意力”已成为AI领域的核心技术,尤其在自然语言处理中占据主导地位。然而,关于注意力机制的起源存在争议。一...

被忽略的起点?Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事

AI研究者Andrej Karpathy最近在推特上分享了注意力机制背后的故事,揭示了这一概念的起源和发展。他指出,Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio的...

新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性

机器之心报道了PyTorch团队为解决注意力机制实现中的超立方体问题而引入的FlexAttention。注意力机制在机器学习中至关重要,但现有的实现如FlashAttention虽...

Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

FlashAttention-3是针对H100 GPU优化的第三代FlashAttention技术,它在前一代的基础上实现了1.5至2倍的速度提升,将H100 GPU的FLOPs利用率提高到了75%。Flash...

再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升

自2017年提出以来,Transformer架构在AI大模型领域占据了主导地位,尤其是在语言建模方面。然而,随着模型规模的扩大和序列长度的增加,其局限性也逐渐凸显,...

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

研究人员推出了Mamba-2模型,该模型在状态空间模型(SSM)与Transformer架构之间建立了新的联系。通过对两种模型的数学基础进行深入分析,研究团队发现,尽管...

谷歌创新框架:从非结构化数据,实现多模态学习

在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络易出现过拟合和泛化不...
1 2