谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说,114倍信息压缩

AIGC动态6个月前发布 QbitAI
548 0 0
谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说,114倍信息压缩

 

文章摘要


【关 键 词】 Infini-attentionTransformer内存压缩线性注意力长文本建模

这篇文章介绍了谷歌最新提出的Infini-attention机制,该机制能够使Transformer架构的大模型在有限的计算资源下处理无限长的输入,并实现114倍的内存压缩比。Infini-attention通过将压缩记忆整合到线性注意力机制中,处理无限长上下文,通过固定数量的参数存储和回忆信息,减少内存占用和计算成本。与传统Transformer中的二次方复杂度注意力机制不同,线性注意力机制能够以更小的计算开销检索和更新长期记忆。在Infini-attention中,旧的KV状态被存储在压缩记忆中,而不是被丢弃,使模型能够检索到相关的值。研究团队进行了实验,结果显示Infini-attention在长文本语言建模任务中表现出更低的困惑度,并且能够处理非常长的序列。此外,Infini-attention在训练后分化出了专门化头和混合头两种不同类型的注意力头,分别处理长期和短期上下文信息。研究团队还将训练长度增加到100K,在Arxiv-math数据集上进行训练,结果显示Infini-attention在保持低内存占用的同时表现出更好的性能。文章还提到了Bard团队的参与,以及DeepMind提出的两个新的RNN模型,旨在高效处理长序列数据。总体而言,这篇文章探讨了Infini-attention机制的原理、优势以及在处理长文本任务中的应用前景。

原文和模型


【原文链接】 阅读原文 [ 1150字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...