麻省理工提出“跨层注意力”,极大优化Transformer缓存

AIGC动态6个月前发布 AIGCOPEN
1,155 0 0
麻省理工提出“跨层注意力”,极大优化Transformer缓存

 

文章摘要


【关 键 词】 Transformer跨层注意力内存优化效率提升AIGC发展

在人工智能生成内容(AIGC)领域,Transformer架构因其在大语言模型(LLM)中的关键作用而备受关注。然而,随着模型参数的指数级增长,传统的Transformer架构在解码时面临内存占用过大的问题,特别是在处理长序列和大批次推理任务时。

为了解决这一挑战,麻省理工学院的研究人员提出了一种名为跨层注意力(Cross-Layer Attention, CLA)的新技术。CLA的核心思想是在相邻解码层之间共享键值(KV)缓存,从而显著降低内存使用。这种方法不仅减少了模型必须维护的独立KV集合数量,而且通过层间连接重用这些激活,提高了模型的效率和准确率。此外,CLA还提供了灵活的配置选项,允许开发者根据需要调整共享因子,以平衡内存使用和模型性能。

研究人员在10亿和30亿参数规模的模型上进行了实验,以测试CLA的性能。实验结果表明,在减少KV缓存大小的同时,CLA能够实现与非CLA模型相当的推理准确性。特别是在10亿参数规模的实验中,CLA模型在保持准确度的基础上显著减少了KV缓存的大小。在30亿参数模型的实验中,CLA同样展现了其高效性,与相同头维度的基线模型相比,实现了更低的验证困惑度。

此外,研究人员还对选定的几个模型进行了学习率调整实验,以确认CLA在与经过良好调整学习率的基线模型相比时是否具有优势。实验结果显示,CLA在减少KV缓存大小的同时,能够实现与非CLA模型相当的推理准确性。

总之,CLA作为一种创新的优化技术,为解决Transformer架构在大模型中的内存瓶颈问题提供了一种有效的解决方案。通过在不同解码层间共享KV缓存,CLA不仅降低了内存占用,而且提高了模型在处理长序列和大批次推理任务时的效率和准确率。这一研究成果有望推动AIGC领域的发展,为构建更高效、更准确的大语言模型提供支持。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1112字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...