标签:低秩近似

微软、哈佛开源创新优化器:全面超越Muon,提升大模型训练效率

大模型训练所需计算资源随功能增强呈爆炸式增长,优化器可节省训练资源。此前的Muon优化器虽有优势,但在大规模训练中应用效率低。为此,微软和哈佛大学研究...