DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升

AIGC动态1年前 (2024)发布 almosthuman2014

2,097 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 DenseSSM、SSM、LLMs、Transformer、自然语言处理

华为诺亚方舟实验室的研究者们提出了一种名为DenseSSM的新方法，用于改进状态空间模型（SSM）中的隐藏信息流动。DenseSSM通过在不同层之间有选择性地整合浅层隐藏状态到深层，保留了对最终输出至关重要的精细信息。这种方法在保持训练并行性和推理效率的同时，通过密集连接实现了性能提升，可广泛应用于各种SSM类型，如Mamba和RetNet。

大型语言模型（LLMs）在语言理解、对话交互和逻辑推理方面取得了显著进展。然而，基于Transformer架构的LLMs，如LLaMA和ChatGLM，依赖于多头自注意力（MHSA）机制，这在推理过程中对计算和内存资源的需求极高。为了解决这一挑战，研究者们探索了简化Transformer架构的方法，包括卷积语言模型、循环单元、长上下文模型和SSMs。SSMs通过高效的隐藏状态机制处理长距离依赖问题，同时保持了训练的并行性和推理的高效率。

DenseSSM方法通过密集连接隐藏状态，解决了SSM中隐藏状态衰减的问题。该方法首先收集浅层隐藏状态，然后通过选择性转换模块φ将它们投影到目标层的子空间并选择有用的部分。这些精选的隐藏状态随后通过隐藏融合模块与当前层的隐藏状态结合。DenseSSM的设计考虑了保持SSM的高效性，避免了使用拼接和交叉注意力机制等可能降低效率的实现方式。

在实验中，DenseSSM在RetNet和Mamba架构上进行了验证。实验使用了The Pile数据集的子集，并在多种下游任务上评估了模型的零样本和少样本学习能力。DenseRetNet和DenseMamba模型在WikiText和LAMBADA语料库上取得了更低的困惑度，并在下游任务中表现出显著优势。这些结果表明，DenseSSM在处理自然语言处理任务时具有强大的能力和潜力。

总结来说，DenseSSM是一个创新的框架，它通过增强SSM中隐藏信息的流动来提升性能。这种方法在保持SSM优点的同时，成功地创造了具有更强大的基础语言处理能力的新架构，并在公共基准测试中证明了其有效性。