单GPU就能压缩模型，性能不变参数少25%！微软提出模型稀疏化新方法

AIGC动态2年前 (2024)发布 AIera

2,278 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 新智元、SliceGPT、稀疏化、计算不变性、LLM

新智元报道了一项由微软研究院和苏黎世联邦理工学院联合发表在arXiv上的研究成果，名为SliceGPT。这项研究关注大语言模型（LLM）的稀疏化问题，旨在降低模型的计算成本和资源占用。LLM通常拥有数十亿个参数，训练和部署这些模型需要巨大的算力和资源。为了解决这一问题，研究人员提出了一种名为SliceGPT的方法，实现了模型的事后稀疏化。

SliceGPT的核心思想是使用较小的矩阵替换权重矩阵，从而降低网络的嵌入维度。这种方法在LLAMA-2 70B、OPT 66B和Phi-2模型上取得了显著成果，去除了多达25%的模型参数，同时保持了99%、99%和90%的零样本任务性能。此外，SliceGPT还能在更少的GPU上运行，无需额外的代码优化。在24GB的消费级GPU上，SliceGPT将LLAMA-2 70B的推理计算量减少到密集模型的64%，在40GB的A100 GPU上，这一比例达到了66%。

SliceGPT的优势在于其引入了计算不变性的概念，即在Transformer架构中，可以对权重矩阵进行正交变换，而不影响模型性能。利用这一特性，研究人员可以编辑Transformer架构中的每个区块，将区块间的信号矩阵投影到其自身上，然后移除变换后权重矩阵的列或行，从而减小模型大小。这种方法在OPT和LLAMA-2等模型上的实验表明，SliceGPT能够将这些模型压缩至高达30%，同时保持90%以上的密集性能。

计算不变性的实现依赖于Transformer网络中的RMSNorm连接。研究人员首先介绍了如何在RMSNorm连接的Transformer网络中实现不变性，然后将使用LayerNorm连接训练的网络转换为RMSNorm。通过主成分分析法（PCA），研究人员计算各层变换的方法，将区块间的信号投射到其主成分上。最后，通过删除次要主成分和剪掉修改后网络的行或列，实现了模型的稀疏化。

SliceGPT的研究为大语言模型的稀疏化提供了一种有效的方法，有助于降低模型的计算成本和资源占用，同时保持了模型的性能。这一成果对于未来LLM的应用和部署具有重要意义。