标签:注意力机制

LSTM之父:我也是注意力之父!1991年就发表线性复杂度,遥遥领先Transformer 26年

自2017年Transformer模型问世以来,其核心机制“注意力”已成为AI领域的核心技术,尤其在自然语言处理中占据主导地位。然而,关于注意力机制的起源存在争议。一...

被忽略的起点?Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事

AI研究者Andrej Karpathy最近在推特上分享了注意力机制背后的故事,揭示了这一概念的起源和发展。他指出,Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio的...

新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性

机器之心报道了PyTorch团队为解决注意力机制实现中的超立方体问题而引入的FlexAttention。注意力机制在机器学习中至关重要,但现有的实现如FlashAttention虽...

Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

FlashAttention-3是针对H100 GPU优化的第三代FlashAttention技术,它在前一代的基础上实现了1.5至2倍的速度提升,将H100 GPU的FLOPs利用率提高到了75%。Flash...

再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升

自2017年提出以来,Transformer架构在AI大模型领域占据了主导地位,尤其是在语言建模方面。然而,随着模型规模的扩大和序列长度的增加,其局限性也逐渐凸显,...

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

研究人员推出了Mamba-2模型,该模型在状态空间模型(SSM)与Transformer架构之间建立了新的联系。通过对两种模型的数学基础进行深入分析,研究团队发现,尽管...

谷歌创新框架:从非结构化数据,实现多模态学习

在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络易出现过拟合和泛化不...

Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存

在近期的研究中,加拿大皇家银行 AI 研究所 Borealis AI 与蒙特利尔大学的研究者提出了一种新型序列建模方法,该方法旨在解决 Transformer 模型在推理时内存...

CVPR 2024|多模态场景感知,小红书高保真人体运动预测方法来了!

< strong >SIF3D(Sense-Informed Forecasting of 3D human motion)是一种由小红书创作发布团队提出的先进场景感知运动预测技术,已被计算机视觉顶会CVPR202...

图文详解Transformer为什么如此强大

Transformer模型自问世以来,已经在自然语言处理(NLP)领域取得了革命性的进展,并且其影响力已经扩展到了NLP之外的其他领域。Transformer的核心特点在于其...
1 2