微软、国科大开启1Bit时代：大模型转三进制，速度快4倍能耗降至1/41

AIGC动态1年前 (2024)发布 almosthuman2014

2,128 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

摘要：

近期，微软研究院、国科大等机构的研究者提出了一种革命性的1-bit大模型，这一技术在AI领域引起了广泛关注。该研究通过将大模型的权重改为三元表示，实现了速度和效率的显著提升。这一进展预示着生成式AI可能迎来新时代，尤其是在物联网等领域的应用前景广阔。

研究者们发现，模型越大，采用1-bit表示带来的速度提升越明显。这一发现对硬件制造商如英伟达提出了新的挑战。随着大语言模型（LLM）的快速发展，其在自然语言处理任务中表现出色，但同时也带来了部署挑战和环境、经济影响的担忧。为了解决这些问题，研究者们采用了后训练量化技术，将权重和激活函数的精度降低，从而显著降低了LLM的内存和计算需求。

BitNet是首个支持训练1-bit大语言模型的网络结构，它在降低成本的同时保持了模型性能。BitNet b1.58作为BitNet的重要变体，通过引入三元值{-1, 0, 1}，进一步优化了模型。这种新架构在保持与原始BitNet相同的能耗的同时，提供了更高的内存消耗、吞吐量和延迟效率。实验结果显示，BitNet b1.58在3B参数规模以上的模型中，性能可媲美全精度（FP16）基线方法。

BitNet b1.58的设计考虑了开源社区的需求，采用了与LLaMA架构类似的组件，使其易于集成到流行的开源软件中。实验比较了BitNet b1.58与FP16 LLaMA LLM在多个语言任务上的性能，结果显示BitNet b1.58在速度、内存消耗和能耗方面均优于LLaMA LLM。随着模型规模的扩大，BitNet b1.58的效率和性能优势更加明显。

总结：

这项研究展示了1-bit大模型在AI领域的潜力，特别是在提高效率和降低成本方面。BitNet b1.58的提出，不仅为大模型的部署提供了新的解决方案，也为未来的AI研究和应用开辟了新的道路。随着技术的不断进步，我们可以期待在不久的将来，1-bit大模型将在更多领域发挥重要作用。