原作者带队,LSTM真杀回来了!
文章摘要
【关 键 词】 LSTM、xLSTM、深度学习、语言模型、性能提升
长短时记忆(LSTM)网络自20世纪90年代引入以来,一直是深度学习领域的重要组成部分,尤其在处理序列数据方面表现出色。然而,随着可并行自注意力机制的Transformer模型的出现,LSTM在语言模型领域的主导地位受到了挑战。尽管如此,LSTM的创造者Sepp Hochreiter并未放弃,他在arXiv上发布了一篇关于xLSTM的预印本论文,旨在解决LSTM的局限性,并缩小与当前最先进大型语言模型(LLM)的差距。
xLSTM的核心改进包括三个方面:首先,它通过指数门控机制解决了LSTM无法修改存储决策的问题;其次,xLSTM引入了矩阵内存,以解决LSTM存储容量有限的问题;最后,xLSTM通过放弃内存混合,实现了可并行处理,从而提高了效率。
论文中提出了两种xLSTM的变体:sLSTM和mLSTM。sLSTM具有标量内存、标量更新和内存混合功能,而mLSTM则具有矩阵内存和协方差更新规则,可以完全并行处理。这两种变体都通过指数门控增强了LSTM的能力,并且可以扩展到多个存储单元。xLSTM块的设计旨在在高维空间中非线性总结过去的信息,以便更好地分离不同的历史或上下文,这是基于Cover定理的思想。
研究者对xLSTM进行了一系列实验,包括在合成任务、长序列处理、语言建模等方面的评估。实验结果显示,xLSTM在验证集复杂度方面优于所有现有方法,并且在更大规模的模型上也表现良好。消融研究进一步证明了性能改进主要源于指数门控和矩阵内存的引入。
此外,研究者还增加了训练数据量,对来自SlimPajama的300B个token进行了训练,并与其他几种模型进行了比较。在不同的评估任务中,xLSTM都显示出了更好的性能和扩展性。
总结来说,xLSTM的提出是对LSTM的一次重要扩展,它通过解决原有LSTM的局限性,提高了模型在处理长序列和语言建模任务中的性能。这项研究不仅展示了LSTM的潜力,也为未来的深度学习模型发展提供了新的方向。
原文和模型
【原文链接】 阅读原文 [ 2574字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★★