文章摘要
【关 键 词】 深度学习、神经记忆、长期记忆、Transformer、时间序列
谷歌的“Titan”架构作为一种新的深度学习模型,旨在挑战现有的Transformer架构。该架构的核心是一个神经长期记忆模块(LMM),它能够记住长期信息,并有效地扩展到超过200万的上下文窗口,性能优于GPT4和Llama3等大模型。Titans团队认为Transformer的注意力机制主要处理短期记忆,因此开发了这个能够记住长期信息的模块。
LMM的设计灵感来源于神经心理学,它通过梯度来衡量输入的“惊喜”程度,以此决定记忆的强度。该模块还引入了动量机制和遗忘机制,前者帮助累积短期记忆形成长期记忆,后者则擦除不再需要的记忆,防止信息溢出。LMM由多层MLP组成,能够存储深层次的数据抽象,比传统矩阵记忆更强大。
Titans团队提出了三种将LMM融入深度学习架构的变体:MAC(记忆作为上下文)、MAG(记忆作为门)和MAL(记忆作为层)。实验表明,这些方法在语言建模、常识推理、时间序列预测等任务上超越了Transformer和其他架构。即使没有短期记忆,LMM也能独立学习,显示出强大的能力。
在长文本中寻找细粒度线索的测试中,Titans的准确率即使在序列长度从2k增加到16k时也能保持在90%左右。在需要对分布在极长文档中的事实进行推理的任务中,Titans的表现超过了GPT4、Mamba等模型。此外,在时间序列预测、DNA序列建模等特定任务中,Titans也取得了良好的表现。
Titans的开发团队来自Google Research NYC的算法和优化团队,目前尚未合并到Google DeepMind。团队计划很快提供用于训练和评估模型的代码,论文已在arXiv上发表。
原文和模型
【原文链接】 阅读原文 [ 1136字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆