文章摘要
【关 键 词】 AI研究、精度感知、量化极限、模型训练、性能降级
哈佛、斯坦福和麻省理工学院的研究人员首次提出了一种“精度感知”的scaling law,揭示了精度、参数规模和数据量之间的统一关系。研究发现,随着数据量的增加,模型对量化精度的要求也随之提高,这可能预示着AI领域低精度加速时代的结束。研究指出,低精度训练会降低模型的“有效参数量”,并提出了一个能够预测不同部分采用不同精度的模型损失的理论框架。通过对465次以上的预训练实验进行验证,研究证实了这一预测在最大1.7B参数、训练数据量达到26B token的模型上的有效性。
艾伦研究所的科学家Tim Dettmers评价这篇论文是很长时间以来最重要的一篇,它以强有力的证据表明我们正在接近“量化”的极限。研究还发现,对于20Btoken训练,8B模型在16位精度下更有效,而70B模型在8位精度下仍然可行,但效率已经开始降低。OpenAI研究员Clive Chan表示,拥抱scaling law,看看最先进的量化方案如何推进前沿将会很有趣,并认为值得花费一半的计算预算来进行一次大规模运行,以验证这个拟合是否适用于大模型。
AI领域的大多数进展都来自计算能力的提升,这主要依赖于低精度加速。但这种趋势现在正接近尾声,加上物理限制,造就了scale终结的“完美风暴”。LLM正接近“量化”scale极限。研究还探讨了精度、参数、数据三者之间的权衡,以及它们在预训练和推理阶段的区别。研究结果表明,量化导致的性能降级随数据量增加而增加,对于固定模型,超过某个点后继续训练可能有害,这种影响在模型后期量化时特别明显。
研究人员提出了一个统一的scaling law,能够预测在不同精度下进行训练和推理时的性能降级。这个单一函数形式基于465次以上的预训练实验,在最大1.7B参数,训练数据量达到26B token的模型上验证了最新的预测。研究还指出,当前研究存在几个限制,包括使用了固定的模型架构和设置,以及在相对较小的语言模型上拟合了scaling law,未能覆盖超大规模模型情况。下一步,研究人员将在更大规模模型上继续研究这一效果。
原文和模型
【原文链接】 阅读原文 [ 4058字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆