单GPU就能压缩模型,性能不变参数少25%!微软提出模型稀疏化新方法

AIGC动态4个月前发布 AIera
641 0 0

作者信息


【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era

单GPU就能压缩模型,性能不变参数少25%!微软提出模型稀疏化新方法
 

文章摘要


【关 键 词】 新智元SliceGPT稀疏化计算不变性LLM

新智元报道了一项由微软研究院和苏黎世联邦理工学院联合发表在arXiv上的研究成果,名为SliceGPT。这项研究关注大语言模型(LLM稀疏化问题,旨在降低模型的计算成本和资源占用。LLM通常拥有数十亿个参数,训练和部署这些模型需要巨大的算力和资源。为了解决这一问题,研究人员提出了一种名为SliceGPT的方法,实现了模型的事后稀疏化。

SliceGPT的核心思想是使用较小的矩阵替换权重矩阵,从而降低网络的嵌入维度。这种方法在LLAMA-2 70BOPT 66BPhi-2模型上取得了显著成果,去除了多达25%的模型参数,同时保持了99%、99%和90%的零样本任务性能。此外,SliceGPT还能在更少的GPU上运行,无需额外的代码优化。在24GB的消费级GPU上,SliceGPTLLAMA-2 70B的推理计算量减少到密集模型的64%,在40GB的A100 GPU上,这一比例达到了66%。

SliceGPT的优势在于其引入了计算不变性的概念,即在Transformer架构中,可以对权重矩阵进行正交变换,而不影响模型性能。利用这一特性,研究人员可以编辑Transformer架构中的每个区块,将区块间的信号矩阵投影到其自身上,然后移除变换后权重矩阵的列或行,从而减小模型大小。这种方法在OPTLLAMA-2等模型上的实验表明,SliceGPT能够将这些模型压缩至高达30%,同时保持90%以上的密集性能。

计算不变性的实现依赖于Transformer网络中的RMSNorm连接。研究人员首先介绍了如何在RMSNorm连接的Transformer网络中实现不变性,然后将使用LayerNorm连接训练的网络转换为RMSNorm。通过主成分分析法(PCA),研究人员计算各层变换的方法,将区块间的信号投射到其主成分上。最后,通过删除次要主成分和剪掉修改后网络的行或列,实现了模型的稀疏化。

SliceGPT的研究为大语言模型的稀疏化提供了一种有效的方法,有助于降低模型的计算成本和资源占用,同时保持了模型的性能。这一成果对于未来LLM的应用和部署具有重要意义。

原文信息


【原文链接】 阅读原文
【原文字数】 2379
【阅读时长】 8分钟

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...