突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型

1,861 0 0

文章摘要

Meta公司近期发布了一项名为“记忆层”的创新研究，旨在解决预训练大模型中因参数增加而导致算力需求指数级增长的问题。记忆层通过高效查询机制，避免了遍历整个记忆层以查找最相关键的低效方法。具体来说，研究人员在1.3亿参数的模型中添加了128亿额外记忆参数，性能与Meta开源的Llama 2-70相当，但算力需求降低了约10倍。

记忆层的核心算法“Product-Key Lookup”优化了传统的键值查找过程。它将单一键集合分解为两个较小的键集合，通过分而治之的策略，减少必要的比较次数，提高查找效率。该算法首先将查询键分割为两个子查询，分别与两个半键集合进行比较，找到最相似的k个键。然后，合并两个半键集合中找到的top-k键，确定最终的top-k键。这一过程不仅提高了查询效率，还优化了内存和带宽的使用。

并行记忆层和共享记忆参数是记忆层的另外两个重要优化方法。并行记忆层通过在多个GPU之间分配任务，有效解决了传统Transformer架构模型中随着模型规模增加而增长的计算和内存需求。共享记忆参数允许不同层的记忆层共享同一个参数集合，减少了模型的总参数数量，提高了参数的利用率。研究人员还开发了动态调整策略，以应对训练期间可能出现的变化，简化了维护流程，提高了系统的灵活性和适应性。

记忆层的研究为大模型的参数扩展提供了新的可能性，使其可以应用于更大规模的数据集和更复杂的任务，如大规模知识图谱的查询、长文本的语义检索等。这一研究成果有望推动AIGC领域的发展，提高大语言模型的效率和应用范围。