模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 量子位、1-bit时代、BitNet b1.58、权重量化、激活量化
在最新的研究中,微软和中国中科院大学提出了一种名为BitNet b1.58的方法,标志着大语言模型(LLM)进入了“1-bit时代”。这种方法通过将传统16位浮点数存储转换为三进制({-1, 0, 1}),使得每个参数可以用1.58位的信息表示,从而显著减少了存储空间和计算资源的需求。在3B模型大小的比较中,BitNet b1.58的速度比Llama提高了2.71倍,GPU内存使用几乎仅为原先的四分之一。随着模型规模的增大,这种性能提升将更加显著。
BitNet b1.58的实现基于BitNet架构,使用BitLinear替换了nn.Linear,并在权重量化和激活量化方面进行了优化。权重被量化为三元值,而激活值的量化则采用了一种新的量化函数。此外,为了与开源社区兼容,研究团队采用了LLaMA模型的组件,如RMSNorm、SwiGLU等。
在性能比较方面,BitNet b1.58在3B模型大小时开始与全精度LLaMA LLM在困惑度上匹配,同时在延迟、内存使用和吞吐量方面有显著提升。网友们对这种新方法表示出极大的兴趣,认为它可能会改变游戏规则,并在消费级GPU上运行大型模型成为可能。
尽管BitNet b1.58在减少推理时的显存开销方面表现出色,但在训练过程中,优化器状态和梯度仍然需要使用浮点数,这限制了其在训练阶段的显存节省潜力。网友们提出了可能的改进方向,如结合offloading和ReLoRA技术来进一步节省显存。
这项研究的成果已经在X上引起了广泛关注,论文链接和相关讨论可以在提供的参考链接中找到。同时,量子位也在进行2024年值得关注的AIGC企业 &产品的评选活动,以及筹备中国AIGC产业峰会。
原文信息
【原文链接】 阅读原文
【阅读预估】 1393 / 6分钟
【原文作者】 量子位
【作者简介】 追踪人工智能新趋势,关注科技行业新突破