文章摘要
【关 键 词】 人工智能、Transformer、算力负担、TransformerFAM、记忆机制
在人工智能领域,Transformer架构对大型模型产生了深远影响,被广泛应用于ChatGPT、Sora、Stable Diffusion等知名模型。然而,它在处理超长文档时,注意力复杂度的二次方增长成为一大算力负担。
谷歌研究人员提出了TransformerFAM架构,这一新型架构可以与预训练模型无缝集成,并通过LoRA进行少量精调,显著提升模型性能。
TransformerFAM的关键灵感来自于人脑的工作记忆机制,即前额叶皮层与视床之间的反馈循环。研究人员在Transformer中设计了一个类似的反馈循环,使注意力机制不仅能关注输入序列,还能关注其自身的潜在表示,从而有效处理超长序列并更新全局上下文信息。
该架构的核心模块是反馈注意力记忆(Feedback Attention Memory,FAM),它在每个Transformer层中加入,通过激活自注意力过程,使输入查询不仅关注当前块和过去的记忆段,还能结合前一步的FAM状态,实现全局上下文知识的融入和传递。块内压缩技术也是处理长序列数据的关键,通过将长序列分割并压缩信息,使模型能高效处理和记忆。
实验评估表明,在1B、8B和24B参数的Flan-PaLM大语言模型上,TransformerFAM在长序列任务上的表现超越了传统Transformer架构,并且在资源消耗上更低。TransformerFAM像一个“便签本”,帮助大型模型记住大量短暂细小的信息,而不增加内存和算力的负担。这种设计使得模型在保持性能的同时,对内存和算力的需求几乎没有额外增加,展现出了卓越的“记忆存储”泛化能力。
原文和模型
【原文链接】 阅读原文 [ 1115字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★☆☆☆