再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

AIGC动态1年前 (2024)发布 almosthuman2014

2,392 0 0

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

文章摘要

【关键词】 Transformer、注意力机制、Mamba模型、SSD框架、序列模型

自2017年提出以来，Transformer架构在AI大模型领域占据了主导地位，尤其是在语言建模方面。然而，随着模型规模的扩大和序列长度的增加，其局限性也逐渐凸显，尤其是自注意力机制的计算量会随上下文长度的增加呈平方级增长。Mamba模型的提出改变了这一局面，实现了与上下文长度的线性扩展，并在中小型规模上与Transformers相媲美甚至超越。

Mamba的两位作者推出了更强大的Mamba-2模型，该模型通过引入SSD（状态空间对偶性）框架，显著提高了线性注意力的理论，并推广到一种新的结构化掩码注意力家族。Mamba-2在核心层对Mamba进行了改进，速度提高了2-8倍，同时在语言建模方面继续保持与Transformers的竞争力。

研究团队构建了一个丰富的SSD理论框架，揭示了状态空间模型与结构化矩阵族之间的等价性。这一框架不仅为理解和改进序列模型提供了新的方向，还促进了计算SSM的高效算法的发展。通过将SSM与结构化注意力联系起来，研究者证明了任何具有快速循环形式的核注意方法都是SSM。

在架构设计上，Mamba-2通过改进，使得新架构能够利用张量并行等扩展方法，更适合现代加速器。研究者还发现，混合模型如Jamba、Zamba通过增加注意力层来提高模型质量，而结合注意力层与Mamba-2层，表现优于Transformer++和纯Mamba-2。

系统优化方面，SSD框架连接了SSM和Transformer，允许利用为Transformer开发的丰富的系统优化工作。在算法层面，SSD框架为计算SSM提供了新的高效且易于实现的算法，其在处理长序列时表现尤为出色。

总之，Mamba-2的推出标志着在序列模型领域的一个重要进展，其在理论创新和实际应用上的突破，为未来更高效、更强大的AI模型的发展奠定了基础。