Llama架构比不上GPT2？神奇token提升10倍记忆？

AIGC动态2年前 (2024)发布 almosthuman2014

2,570 0 0

文章摘要

这篇文章主要介绍了朱泽园和李远志最新研究的内容，标题为《语言模型物理学 Part 3.3：知识的 Scaling Laws》。他们通过海量实验总结了12条定律，为语言模型（LLM）在不同条件下的知识容量提供了精确的计量方法。作者指出，通过开源模型在基准数据集上的表现来衡量LLM的scaling law是不现实的，因为模型的表现并不直接反映其知识容量。研究中使用了三种合成数据类型：bioS、bioR和bioD，其中bioD是一种虚拟的知识数据，可以进一步控制细节。作者重点研究了基于GPT2、LlaMA和Mistral的语言模型架构，发现在训练时间充足的情况下，不论模型架构如何，存储效率都可以达到2bit/param。此外，作者还研究了quantization和MoE对模型scaling law的影响，发现即使将模型从float32/16压缩到int8，也不会影响知识的存储。然而，低质量数据的存在可能会导致模型对高质量知识的存储量下降，作者提出了一个简单但有效的策略，即给所有的(预)训练数据加上自己的网站域名token，以帮助模型自动发现和存储高质量知识。最后，作者认为通过合成数据计算模型在训练过程中获得的知识总量的方法，可以为评估模型架构、训练方法和数据制备提供一套系统且精确的打分体系，帮助未来LLM的设计者做出更明智的决策。