
文章摘要
大模型在人工智能领域展现出强大的能力,但其庞大的参数量和部署成本成为广泛应用的主要障碍。以DeepSeek-R1 671B为例,其推理过程需要高达1342GB的显存,即便使用32GB显卡,也需要42张显卡才能满足需求。为了降低部署成本,后训练量化(PTQ)技术应运而生,它能够在有限的校准数据和计算资源下对模型进行高效压缩。然而,PTQ在极低比特精度(如W2A16、W4A4)时往往会导致显著的性能下降,使得模型虽然体积缩小,但实用性大打折扣。
华为诺亚方舟实验室与中科大联合提出的CBQ(Cross-Block Quantization)方案,成为解决这一难题的关键突破。CBQ是一种基于跨块重建的后训练量化方案,仅需0.1%的训练数据,即可将大模型压缩至原体积的1/7,同时保留99%的精度。这一成果不仅展示了大模型压缩领域的创新性和实用性,还为大模型在国产算力上的普及奠定了基础。CBQ已被纳入昇腾模型压缩工具包ModelSlim,帮助开发者在昇腾芯片上实现大语言模型(LLM)的高效部署。
极低比特量化之所以困难,主要源于大模型的复杂结构。随着模型参数数量的增加和量化bit数的减少,模型内部的层间依赖和层内依赖显著增强,导致量化精度下降。研究者通过对LLM在低比特量化场景下的量化误差进行分析,发现量化误差会在层间不断累积放大,形成“雪球效应”,同时层内依赖的复杂性也使得模型在处理复杂任务时表现不佳。此外,权重和激活值中的异常值在低比特量化时会引发较大的误差,进一步加剧了量化难度。
CBQ通过跨块依赖机制(CBD)、自适应LoRA-Rounding技术和粗到细的预处理策略(CFP),成功突破了极低比特量化的瓶颈。CBD机制通过滑动窗口的方式同时优化多个Transformer块,有效捕捉模型内部的长距离依赖关系。自适应LoRA-Rounding技术通过低秩矩阵学习量化权重的自适应补偿值,减少了可学习参数,提升了训练速度和效率。CFP策略则通过分阶段检测和处理异常值,减少了量化误差,确保模型在低比特场景下的稳定性。
在实验中,CBQ在华为盘古模型和开源模型上均展现出卓越的性能。在盘古模型PanGu-7B和PanGu-1.5B的端侧部署中,CBQ在W8A8/W4A16精度下表现优异,与全精度模型的性能差距微乎其微。在开源模型如OPT和LLaMA上,CBQ在W4A16、W2A16和W4A8等低比特量化设置下均超越了现有最先进方法,且与全精度模型的性能差距缩小至1%以内。此外,CBQ仅需4.3小时即可完成对4位权重的LLaMA1-65B模型的量化,展现了压缩率与精度之间的完美平衡。
CBQ的成功不仅为大模型压缩提供了高效解决方案,还为未来大模型在更多场景中的应用铺平了道路。通过跨块依赖机制、自适应LoRA-Rounding技术和粗到细的预处理策略,CBQ有效解决了低比特量化中的层间依赖和层内依赖难题,显著提升了模型性能,并实现了复杂模型的快速压缩。这一创新为盘古模型和各类开源模型在昇腾硬件上的高效部署提供了有力支持,推动了大模型技术的进一步普及和应用。
原文和模型
【原文链接】 阅读原文 [ 2307字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★