Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

AIGC动态8个月前发布 almosthuman2014

1,883 0 0

文章摘要

近期，AI领域一篇关于大模型量化的论文引起了广泛关注。UCSD助理教授Dan Fu认为该论文指明了大模型量化的方向，而CMU教授Tim Dettmers更是称之为”很长一段时间以来最重要的一篇论文”。该论文名为《Scaling Laws for Precision》，探讨了大语言模型使用数据精度的扩展定律，涵盖了训练前和训练后。

论文指出，随着模型规模的扩大，所需的精度也在提高。例如，对于20B Token数据的训练，8B模型在16位中效率更高，而对于70B模型，8位仍然有效，但效率越来越低。这表明，对于很多大模型的训练来说，8位是不够的。

论文还发现，当代大模型在大量数据上经历了过度训练，导致训练后量化变得非常困难。如果在训练后量化，最终更多的预训练数据可能会造成副作用。而在预训练期间以不同的精度放置权重、激活或注意力的效果是一致且可预测的。

研究提出了”精度感知”的扩展定律，可以预测低精度训练和训练后量化带来的额外损失。对于训练，扩展定律使我们能够预测具有不同精度的不同部分的模型的损失，以较低精度训练较大的模型可能是计算最优的。

论文统一了训练后量化和训练前量化的扩展定律，得出一个单一的函数形式，可以预测不同精度下训练和推理的性能下降。预训练scaling law表明，计算最佳预训练精度通常独立于计算预算。然而，如果模型大小受到限制，这种独立性就不再成立，在这种情况下，计算最佳精度在计算中增长缓慢。

该研究以3-16 bit精度预训练了465个语言模型，并进行了训练后量化。研究最终找到了一个统一的Scaling Law，可以预测不同精度下训练和推理的性能下降。研究还发现，低精度的预训练可以以定量可预测的方式”增强”模型的训练后量化，但其程度低于直观预期。

总的来说，这项研究为大模型量化提供了重要的理论指导和实践参考，揭示了大模型训练和量化中的一些关键规律。未来，扩大数据中心规模、通过动态扩展以及知识的提炼可能是三条可能的路线。