Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
文章摘要
【关 键 词】 AI研究、注意力机制、RNN变体、效率提升、资源限制
在近期的研究中,加拿大皇家银行 AI 研究所 Borealis AI 与蒙特利尔大学的研究者提出了一种新型序列建模方法,该方法旨在解决 Transformer 模型在推理时内存和计算资源需求较高的问题。
研究者指出,尽管 Transformer 由于其并行处理能力而在序列建模中取得了显著突破,但其推理时的二次计算复杂度限制了在资源受限环境下的应用。为克服此限制,他们提出了“Attention as an RNN”的概念,展示了如何将流行的基于注意力模型(例如 Transformer 和 Perceiver)视为 RNN 变体。
研究的关键在于,通过将注意力机制解析为一种特殊类型的 RNN,研究者揭示了其高效计算多对一 RNN 输出的能力。进一步地,他们基于并行前缀扫描算法提出了一种新的注意力计算方法,该方法能高效实现多对多 RNN 输出,从而在推理时只需恒定内存,像传统 RNN 一样高效更新。
这一新方法被命名为 Aaren,它在保持 Transformer 并行训练优势的同时,实现了对长上下文的高效处理。实验结果显示,Aaren 在涵盖强化学习、时间序列分类和时间序列预测等领域的38个数据集上的表现与 Transformer 相当,同时在时间和内存效率上有显著提升。
研究强调了将注意力视为 RNN 的重要性,不仅提供了对现有注意力模型的全新视角,也为设计具有高效更新能力的新模型奠定了基础。这种新方法在实现高效推理的同时,保持了与现有 RNN 模型相比的优势,尤其是在处理新 token 更新时仅需常量内存的特点。这对于在资源受限环境中部署高级序列模型具有重要的实际意义。
原文和模型
【原文链接】 阅读原文 [ 5944字 | 24分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★★