谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

AIGC动态1年前 (2024)发布 QbitAI

2,000 0 0

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

文章摘要

【关键词】 Infini-attention、Transformer、内存压缩、线性注意力、长文本建模

这篇文章介绍了谷歌最新提出的Infini-attention机制，该机制能够使Transformer架构的大模型在有限的计算资源下处理无限长的输入，并实现114倍的内存压缩比。Infini-attention通过将压缩记忆整合到线性注意力机制中，处理无限长上下文，通过固定数量的参数存储和回忆信息，减少内存占用和计算成本。与传统Transformer中的二次方复杂度注意力机制不同，线性注意力机制能够以更小的计算开销检索和更新长期记忆。在Infini-attention中，旧的KV状态被存储在压缩记忆中，而不是被丢弃，使模型能够检索到相关的值。研究团队进行了实验，结果显示Infini-attention在长文本语言建模任务中表现出更低的困惑度，并且能够处理非常长的序列。此外，Infini-attention在训练后分化出了专门化头和混合头两种不同类型的注意力头，分别处理长期和短期上下文信息。研究团队还将训练长度增加到100K，在Arxiv-math数据集上进行训练，结果显示Infini-attention在保持低内存占用的同时表现出更好的性能。文章还提到了Bard团队的参与，以及DeepMind提出的两个新的RNN模型，旨在高效处理长序列数据。总体而言，这篇文章探讨了Infini-attention机制的原理、优势以及在处理长文本任务中的应用前景。