标签:优化技术

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

摘要:本文报道了Meta FAIR的田渊栋及其团队最新研究成果,提出了一种名为GaLore的内存高效的LLM训练方法。该方法通过Gradient Low-Rank Projection实现了在...