DeepMind研究成本大起底，一篇ICML论文烧掉1290万美元

2,390 0 0

文章摘要

DeepMind近期在ICML 2024上发表的一篇论文，详细研究了大型语言模型（LLM）在扩展规模时的算法和架构细节，包括参数和优化器的选择。这项研究覆盖了数以万计的模型，涉及3种优化器、4种参数化方案、多种学习率和高达26.8B的14种参数规模。一位读者对论文中的实验进行了成本估算，结果显示复现论文的成本高达1290万美元。

研究中，论文附录C提供了模型算法和架构的详细设置，如使用decoder-only架构、层归一化、GeLU激活函数等。实验模型的参数规模统计显示，训练中每个token所需的FLOPS（浮点运算次数）可表示为M，而模型总参数量则基于此进行计算。实验中，每次处理的token数（tokens per experiment, TPE）约为6.5536e9。

对齐实验的成本计算较为简单，如果使用最优学习率，成本约为888美元。学习率的子问题包括最佳评估损失实验，涉及多种模型规模和实验变量组合，成本接近40万美元。此外，还涉及β和γ两个超参数的选择，成本分别约为200万美元和320万美元。

Adam优化器的Epsilon参数实验是计算量最大的部分，成本约为200万美元。权重衰减实验的成本相对较低，约为31.7万美元。Adafactor优化器的实验成本约为18.8万美元。计算最优化的实验则未详细描述，但涉及步长和数据集的改变。

将所有实验的算力和成本汇总，整篇论文的运算量为5.42e24 FLOPS，相当于Llama 3训练计算量的15%，在10万卡H100集群上仅需2天即可完成。然而，从学术研究的角度来看，这样的计算量显得相当奢侈，对于资源有限的实验室来说，完成这样的研究几乎是不可能的。即使拥有100张H100的大型实验室，也可能需要数年时间才能完成所有实验。

这项研究不仅展示了DeepMind背靠谷歌的雄厚实力，也反映了当前大型语言模型研究的高成本和资源密集型特点。这无疑给学术界和研究团队带来了挑战，如何在有限的资源下进行高质量的研究，成为了一个值得思考的问题。同时，这也凸显了开源合作和资源共享的重要性，通过合作和共享，可以更有效地利用资源，推动科学研究的发展。