
文章摘要
微软亚研院的研究团队近期发布了原生1bit精度的大模型BitNet b1.58 2B4T的升级版本——BitNet v2。这一新版本在性能几乎无损失的情况下,显著降低了内存占用和计算成本。BitNet v2的核心创新在于实现了模型全流程的原生4比特激活值量化,这一突破得益于下一代GPU等硬件的进步,使得深度学习领域能够更高效地采用量化和低比特推理技术。
BitNet v2的关键创新在于H-BitLinear模块,该模块在激活量化前应用在线Hadamard变换,将尖锐的激活值分布转化为更接近高斯形态的平滑分布,从而适配低比特表示。这一技术解决了1比特大语言模型部署中激活值异常点的问题,使得模型能够充分利用新硬件的4比特计算能力。此外,BitNet v2的训练流程分为两阶段:首先使用1.58位权重和8位激活进行预训练,随后在保持权重量化不变的基础上,将所有线性层进一步微调为4位激活。
实验结果表明,4比特BitNet v2变体在性能上与BitNet a4.8相当,但在批处理推理场景中提供了更高的计算效率。与后训练量化方法SpinQuant和QuaRot相比,BitNet v2在各项指标上几乎全面领先。特别是在1.3B、3B和7B模型规模上,BitNet v2在终端任务的平均准确率分别提升了0.16%、0.49%和0.61%。此外,BitNet v2支持所有线性层的原生4比特激活值,显著提升了批处理推理的效率。
BitNet v2的成功不仅在于其技术上的创新,还在于其对硬件资源的充分利用。通过引入H-BitLinear模块和在线Hadamard变换,BitNet v2有效地解决了低比特量化中的离群值问题,使得模型在保持高性能的同时,大幅降低了计算成本和内存占用。这一进展为大规模模型的部署和应用提供了新的可能性,尤其是在批处理推理场景中,BitNet v2的高效内核设计将带来显著的性能提升。
总的来说,BitNet v2的发布标志着低比特量化技术在深度学习领域的进一步成熟。通过原生4比特激活值量化和H-BitLinear模块的创新,BitNet v2不仅保持了与全精度模型相当的性能,还显著降低了计算成本和内存占用,为未来大规模模型的部署和应用奠定了坚实的基础。
原文和模型
【原文链接】 阅读原文 [ 2168字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★