昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理
文章摘要
【关 键 词】 开源模型、千亿参数、MoE技术、训练优化、性能提升
昆仑万维宣布开源其千亿稀疏大模型Skywork-MoE,此模型基于先前的Skywork-13B模型中间checkpoint扩展而成,是首个将MoE Upcycling技术应用并落地的开源千亿MoE大模型。Skywork-MoE不仅性能强劲,同时具有更低的推理成本,并能在单台4090服务器上进行推理。
Skywork-MoE模型的总参数量为146B,激活参数量为22B,包含16个Expert,每个Expert大小为13B,每次激活其中2个Expert。模型评测显示,在相同激活参数量下,Skywork-MoE的能力接近70B的Dense模型,但推理成本降低了近3倍。
技术创新方面,为提升MoE模型的泛化性能,Skywork-MoE设计了两种训练优化算法:Gating Logits归一化操作和自适应的Aux Loss。这些算法增强了模型对top-2 experts的置信度,并保持token分发平衡,提升了整体的性能和泛化水平。
在模型训练基础设施方面,Skywork-MoE提出了两个重要的并行优化设计:Expert Data Parallel和非均匀切分流水并行,以提升大规模分布式训练的效率。
此外,Skywork-MoE通过基于Scaling Laws的实验,探索了影响Upcycling和From Scratch训练MoE模型的约束条件,并提供了一个经验规则:如果MoE模型的FLOPs是Dense模型的两倍以上,选择From Scratch训练MoE更佳。
Skywork-MoE支持在8×4090服务器上进行推理,通过非均匀Tensor Parallel并行推理方式,在合适的batch size内达到2200 tokens/s的吞吐。天工团队已完整开源了相关推理框架代码和安装环境。
这一开源举措旨在为社区贡献MoE训练经验,包括模型结构、超参选择、训练技巧及加速方法等,以期在探索更高效、低成本训练更强模型的道路上,为人工智能的发展贡献力量。
原文和模型
【原文链接】 阅读原文 [ 1848字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 glm-4
【摘要评分】 ★★★★☆