标签:GaLore

极大降低大模型训练内存需求,Meta等推出高效方法

该文章介绍了一个名为GaLore的高效训练方法,旨在解决大型语言模型在预训练过程中对内存需求过高的问题。研究人员发现,在训练过程中,梯度矩阵会自然呈现出...