文章摘要
【关 键 词】 深度学习、算法研究、资源密集、成本分析、开源合作
DeepMind近期在ICML 2024上发表的一篇论文,详细研究了大型语言模型(LLM)在扩展规模时的算法和架构细节,包括参数和优化器的选择。这项研究覆盖了数以万计的模型,涉及3种优化器、4种参数化方案、多种学习率和高达26.8B的14种参数规模。一位读者对论文中的实验进行了成本估算,结果显示复现论文的成本高达1290万美元。
研究中,论文附录C提供了模型算法和架构的详细设置,如使用decoder-only架构、层归一化、GeLU激活函数等。实验模型的参数规模统计显示,训练中每个token所需的FLOPS(浮点运算次数)可表示为M,而模型总参数量则基于此进行计算。实验中,每次处理的token数(tokens per experiment, TPE)约为6.5536e9。
对齐实验的成本计算较为简单,如果使用最优学习率,成本约为888美元。学习率的子问题包括最佳评估损失实验,涉及多种模型规模和实验变量组合,成本接近40万美元。此外,还涉及β和γ两个超参数的选择,成本分别约为200万美元和320万美元。
Adam优化器的Epsilon参数实验是计算量最大的部分,成本约为200万美元。权重衰减实验的成本相对较低,约为31.7万美元。Adafactor优化器的实验成本约为18.8万美元。计算最优化的实验则未详细描述,但涉及步长和数据集的改变。
将所有实验的算力和成本汇总,整篇论文的运算量为5.42e24 FLOPS,相当于Llama 3训练计算量的15%,在10万卡H100集群上仅需2天即可完成。然而,从学术研究的角度来看,这样的计算量显得相当奢侈,对于资源有限的实验室来说,完成这样的研究几乎是不可能的。即使拥有100张H100的大型实验室,也可能需要数年时间才能完成所有实验。
这项研究不仅展示了DeepMind背靠谷歌的雄厚实力,也反映了当前大型语言模型研究的高成本和资源密集型特点。这无疑给学术界和研究团队带来了挑战,如何在有限的资源下进行高质量的研究,成为了一个值得思考的问题。同时,这也凸显了开源合作和资源共享的重要性,通过合作和共享,可以更有效地利用资源,推动科学研究的发展。
原文和模型
【原文链接】 阅读原文 [ 1873字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆