微软6页论文爆火:三进制LLM,真香!

AIGC动态9个月前发布 QbitAI
960 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

微软6页论文爆火:三进制LLM,真香!
 

文章摘要


【关 键 词】 量子位1-bit时代BitNet b1.58权重量化激活量化

在最新的研究中,微软和中国中科院大学提出了一种名为BitNet b1.58的方法,标志着大语言模型(LLM)进入了“1-bit时代”。这种方法通过将传统16位浮点数存储转换为三进制({-1, 0, 1}),使得每个参数可以用1.58位的信息表示,从而显著减少了存储空间和计算资源的需求。在3B模型大小的比较中,BitNet b1.58的速度比Llama提高了2.71倍,GPU内存使用几乎仅为原先的四分之一。随着模型规模的增大,这种性能提升将更加显著。

BitNet b1.58的实现基于BitNet架构,使用BitLinear替换了nn.Linear,并在权重量化激活量化方面进行了优化。权重被量化为三元值,而激活值的量化则采用了一种新的量化函数。此外,为了与开源社区兼容,研究团队采用了LLaMA模型的组件,如RMSNorm、SwiGLU等。

在性能比较方面,BitNet b1.58在3B模型大小时开始与全精度LLaMA LLM在困惑度上匹配,同时在延迟、内存使用和吞吐量方面有显著提升。网友们对这种新方法表示出极大的兴趣,认为它可能会改变游戏规则,并在消费级GPU上运行大型模型成为可能。

尽管BitNet b1.58在减少推理时的显存开销方面表现出色,但在训练过程中,优化器状态和梯度仍然需要使用浮点数,这限制了其在训练阶段的显存节省潜力。网友们提出了可能的改进方向,如结合offloading和ReLoRA技术来进一步节省显存。

这项研究的成果已经在X上引起了广泛关注,论文链接和相关讨论可以在提供的参考链接中找到。同时,量子位也在进行2024年值得关注的AIGC企业 &产品的评选活动,以及筹备中国AIGC产业峰会。

原文信息


【原文链接】 阅读原文
【阅读预估】 1393 / 6分钟
【原文作者】 量子位
【作者简介】 追踪人工智能新趋势,关注科技行业新突破

© 版权声明

相关文章

暂无评论

暂无评论...