斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出

文章摘要
【关 键 词】 优化器研究、AdamW优势、超参调优、矩阵方法、评估阶段
Adam 及其改进版 AdamW 自 2014 年提出后,长期主导开放权重语言模型预训练。随着模型规模扩大,预训练计算开销增大,优化器设计对收敛速度与计算成本至关重要。
研究者探索了多种优化器改进方向,最快的优化器多采用矩阵型预条件子,能带来 30 – 40%的迭代级别加速。但斯坦福大学 Percy Liang 团队研究指出,虽有许多声称能显著加速的替代方案,AdamW 仍是预训练稳健首选,矩阵型方法在特定数据 – 模型比例下有优势。
研究者认为这可能源于两个方法论缺陷:一是不公平的超参数调优,基线模型调优不足,固定共享超参数不能保证比较公平;二是测试规模不足,多数测试用小型模型或遵循 1 倍数据配比,且训练早期检查点可能误导,需在不同设定下进行最终评估。
为验证假设,研究人员系统性比较了十一种深度学习优化器,在多种模型规模和数据 – 模型比例下为每个优化器独立调优超参数,有以下发现:独立调优至关重要,缺乏独立调优会使比较结果不公平,新优化器实际加速效果低于声称数值;短期评估具有误导性,不同优化器性能排名和损失曲线会随训练和学习率衰减而变化;矩阵方法性能领先,基于矩阵的预条件子优化器比严格调优后的 AdamW 单步训练速度提升 30 – 40%,且最优选择与场景相关。
研究设计严谨方法论评估优化器,分三个阶段:第一阶段全面参数扫描,解决基线优化器超参数调整不当问题,发现不同优化器最优超参数差异大,盲目迁移会导致不公平比较,且实际加速效果低于声称水平;第二阶段敏感超参数识别,识别敏感超参数并进一步搜索,发现基于矩阵的优化器虽表现优,但加速比未超 1.4 倍,模型规模扩大时许多替代优化器优势消失,AdamW 仍最稳健;第三阶段案例研究,深入探索更大规模实验,验证缩放定律,揭示 Muon 优化器潜在局限性,在高数据与模型比例下,Soap 等表现更优。
原文和模型
【原文链接】 阅读原文 [ 2779字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★