微软6页论文爆火：三进制LLM，真香！

AIGC动态1年前 (2024)发布 QbitAI

2,184 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

微软6页论文爆火：三进制LLM，真香！

文章摘要

【关键词】 量子位、1-bit时代、BitNet b1.58、权重量化、激活量化

在最新的研究中，微软和中国中科院大学提出了一种名为BitNet b1.58的方法，标志着大语言模型（LLM）进入了“1-bit时代”。这种方法通过将传统16位浮点数存储转换为三进制（{-1, 0, 1}），使得每个参数可以用1.58位的信息表示，从而显著减少了存储空间和计算资源的需求。在3B模型大小的比较中，BitNet b1.58的速度比Llama提高了2.71倍，GPU内存使用几乎仅为原先的四分之一。随着模型规模的增大，这种性能提升将更加显著。

BitNet b1.58的实现基于BitNet架构，使用BitLinear替换了nn.Linear，并在权重量化和激活量化方面进行了优化。权重被量化为三元值，而激活值的量化则采用了一种新的量化函数。此外，为了与开源社区兼容，研究团队采用了LLaMA模型的组件，如RMSNorm、SwiGLU等。

在性能比较方面，BitNet b1.58在3B模型大小时开始与全精度LLaMA LLM在困惑度上匹配，同时在延迟、内存使用和吞吐量方面有显著提升。网友们对这种新方法表示出极大的兴趣，认为它可能会改变游戏规则，并在消费级GPU上运行大型模型成为可能。

尽管BitNet b1.58在减少推理时的显存开销方面表现出色，但在训练过程中，优化器状态和梯度仍然需要使用浮点数，这限制了其在训练阶段的显存节省潜力。网友们提出了可能的改进方向，如结合offloading和ReLoRA技术来进一步节省显存。

这项研究的成果已经在X上引起了广泛关注，论文链接和相关讨论可以在提供的参考链接中找到。同时，量子位也在进行2024年值得关注的AIGC企业 &产品的评选活动，以及筹备中国AIGC产业峰会。