谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

1,782 0 0

文章摘要

【关键词】 深度学习、神经记忆、长期记忆、Transformer、时间序列

谷歌的“Titan”架构作为一种新的深度学习模型，旨在挑战现有的Transformer架构。该架构的核心是一个神经长期记忆模块（LMM），它能够记住长期信息，并有效地扩展到超过200万的上下文窗口，性能优于GPT4和Llama3等大模型。Titans团队认为Transformer的注意力机制主要处理短期记忆，因此开发了这个能够记住长期信息的模块。

LMM的设计灵感来源于神经心理学，它通过梯度来衡量输入的“惊喜”程度，以此决定记忆的强度。该模块还引入了动量机制和遗忘机制，前者帮助累积短期记忆形成长期记忆，后者则擦除不再需要的记忆，防止信息溢出。LMM由多层MLP组成，能够存储深层次的数据抽象，比传统矩阵记忆更强大。

Titans团队提出了三种将LMM融入深度学习架构的变体：MAC（记忆作为上下文）、MAG（记忆作为门）和MAL（记忆作为层）。实验表明，这些方法在语言建模、常识推理、时间序列预测等任务上超越了Transformer和其他架构。即使没有短期记忆，LMM也能独立学习，显示出强大的能力。

在长文本中寻找细粒度线索的测试中，Titans的准确率即使在序列长度从2k增加到16k时也能保持在90%左右。在需要对分布在极长文档中的事实进行推理的任务中，Titans的表现超过了GPT4、Mamba等模型。此外，在时间序列预测、DNA序列建模等特定任务中，Titans也取得了良好的表现。

Titans的开发团队来自Google Research NYC的算法和优化团队，目前尚未合并到Google DeepMind。团队计划很快提供用于训练和评估模型的代码，论文已在arXiv上发表。