ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP
 

文章摘要


【关 键 词】 模型量化大语言模型后训练量化权重激活值OmniQuant

摘要:

本文介绍了一种名为OmniQuant的新型大语言模型(LLM)量化算法。该算法由上海人工智能实验室、香港大学和香港中文大学的研究者共同提出,旨在解决大语言模型在后训练量化中的量化参数优化问题。OmniQuant支持权重和激活值的量化,并能覆盖多种量化bit位设置。其核心特点是在保持后训练量化的时间和数据效率的同时,达到量化感知训练的性能。

OmniQuant采用了Block-wise量化误差最小化框架,并引入了可学习的权重裁剪(LWC)和可学习的等价转换(LET)两种策略。这些策略使得模型在量化过程中能够更好地适应低bit量化,同时在量化完成后,所有可学习参数可以被融合消除,确保了模型的多平台部署能力。

实验结果显示,OmniQuant在各种LLM模型和多样化的量化配置中均优于以往的量化方法。特别是在权重和激活值都量化的设置中,OmniQuant显著提高了模型的平均准确率。此外,使用OmniQuant量化的模型在NVIDIA A100-80G上的内存需求和推理速度都有显著提升,且支持在Android和iOS等平台上的部署。

总结:

OmniQuant是一种高效的大语言模型量化算法,它通过引入可学习的量化参数,优化了模型在低bit量化下的兼容性。该算法不仅提高了量化模型的性能,还保持了与现有PTQ方法相当的训练时间效率和数据效率,并确保了硬件兼容性。OmniQuant的提出,为大语言模型的量化提供了一种新的解决方案。

原文信息


【原文链接】 阅读原文
【阅读预估】 2712 / 11分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台

© 版权声明

相关文章

暂无评论

暂无评论...