Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
文章摘要
【关 键 词】 大模型、量化研究、精度扩展、训练优化、性能预测
近期,AI领域一篇关于大模型量化的论文引起了广泛关注。UCSD助理教授Dan Fu认为该论文指明了大模型量化的方向,而CMU教授Tim Dettmers更是称之为”很长一段时间以来最重要的一篇论文”。该论文名为《Scaling Laws for Precision》,探讨了大语言模型使用数据精度的扩展定律,涵盖了训练前和训练后。
论文指出,随着模型规模的扩大,所需的精度也在提高。例如,对于20B Token数据的训练,8B模型在16位中效率更高,而对于70B模型,8位仍然有效,但效率越来越低。这表明,对于很多大模型的训练来说,8位是不够的。
论文还发现,当代大模型在大量数据上经历了过度训练,导致训练后量化变得非常困难。如果在训练后量化,最终更多的预训练数据可能会造成副作用。而在预训练期间以不同的精度放置权重、激活或注意力的效果是一致且可预测的。
研究提出了”精度感知”的扩展定律,可以预测低精度训练和训练后量化带来的额外损失。对于训练,扩展定律使我们能够预测具有不同精度的不同部分的模型的损失,以较低精度训练较大的模型可能是计算最优的。
论文统一了训练后量化和训练前量化的扩展定律,得出一个单一的函数形式,可以预测不同精度下训练和推理的性能下降。预训练scaling law表明,计算最佳预训练精度通常独立于计算预算。然而,如果模型大小受到限制,这种独立性就不再成立,在这种情况下,计算最佳精度在计算中增长缓慢。
该研究以3-16 bit精度预训练了465个语言模型,并进行了训练后量化。研究最终找到了一个统一的Scaling Law,可以预测不同精度下训练和推理的性能下降。研究还发现,低精度的预训练可以以定量可预测的方式”增强”模型的训练后量化,但其程度低于直观预期。
总的来说,这项研究为大模型量化提供了重要的理论指导和实践参考,揭示了大模型训练和量化中的一些关键规律。未来,扩大数据中心规模、通过动态扩展以及知识的提炼可能是三条可能的路线。
原文和模型
【原文链接】 阅读原文 [ 2001字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★