田渊栋等人新作：突破内存瓶颈，让一块4090预训练7B大模型

AIGC动态1年前 (2024)发布 almosthuman2014

1,924 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

文章摘要

摘要：
本文报道了Meta FAIR的田渊栋及其团队最新研究成果，提出了一种名为GaLore的内存高效的LLM训练方法。该方法通过Gradient Low-Rank Projection实现了在具有24GB内存的消费级GPU上预训练7B模型的可行性，无需模型并行、检查点或卸载策略。研究人员证明了GaLore相比于传统的低秩自适应方法在内存效率上的优势，同时在预训练和微调方面表现出良好的性能。该研究为解决大语言模型训练中的内存需求问题提供了新的思路和方法。

在该研究中，GaLore利用了权重矩阵梯度缓慢变化的低秩结构，将梯度矩阵投影为低秩形式，从而减少了内存占用。实验结果表明，GaLore在预训练和微调阶段均表现出色，与传统方法相比，内存占用明显减少，同时保持了良好的性能。研究者还对GaLore在不同优化器下的应用进行了评估，结果显示GaLore适用于各种学习算法，并能进一步减少内存占用。

总的来说，GaLore为在消费级GPU上进行大型语言模型的训练提供了一种高效的解决方案，为未来的AI研究和应用带来了新的可能性。该研究的成果对于提高大型模型的训练效率和降低成本具有重要意义，值得进一步深入研究和应用。