标签:优化器

仅凭一篇博客,他成功入职OpenAI!核心技术或用于GPT-5训练

Keller Jordan凭借一篇关于Muon优化器的博客成功加入OpenAI,这一事件引发了广泛关注。Muon优化器是一种为神经网络2D参数隐藏层设计的优化器,通过SGD-动量法...

【 ICLR 2025 】Adam 有了 mini 版:内存减半,吞吐量可提升 50%

在大语言模型训练中,内存开销是一个关键挑战,尤其是Adam优化器的高内存需求。为了解决这一问题,研究团队提出了一种轻量化优化器Adam-mini,通过分析Transf...

开源赛道太挤了!月之暗面开源新版Muon优化器

月之暗面近期开源了改进版优化器Muon,其计算效率较AdamW提升2倍,并在相同训练预算下显著提升模型性能。通过引入权重衰减和一致的RMS更新技术,Muon成功解决...