ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

AIGC动态1年前 (2024)发布 almosthuman2014

2,180 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 模型量化、大语言模型、后训练量化、权重激活值、OmniQuant

摘要：

本文介绍了一种名为OmniQuant的新型大语言模型（LLM）量化算法。该算法由上海人工智能实验室、香港大学和香港中文大学的研究者共同提出，旨在解决大语言模型在后训练量化中的量化参数优化问题。OmniQuant支持权重和激活值的量化，并能覆盖多种量化bit位设置。其核心特点是在保持后训练量化的时间和数据效率的同时，达到量化感知训练的性能。

OmniQuant采用了Block-wise量化误差最小化框架，并引入了可学习的权重裁剪（LWC）和可学习的等价转换（LET）两种策略。这些策略使得模型在量化过程中能够更好地适应低bit量化，同时在量化完成后，所有可学习参数可以被融合消除，确保了模型的多平台部署能力。

实验结果显示，OmniQuant在各种LLM模型和多样化的量化配置中均优于以往的量化方法。特别是在权重和激活值都量化的设置中，OmniQuant显著提高了模型的平均准确率。此外，使用OmniQuant量化的模型在NVIDIA A100-80G上的内存需求和推理速度都有显著提升，且支持在Android和iOS等平台上的部署。

总结：

OmniQuant是一种高效的大语言模型量化算法，它通过引入可学习的量化参数，优化了模型在低bit量化下的兼容性。该算法不仅提高了量化模型的性能，还保持了与现有PTQ方法相当的训练时间效率和数据效率，并确保了硬件兼容性。OmniQuant的提出，为大语言模型的量化提供了一种新的解决方案。