训练MoE足足提速70%！华为只用了3招

458 0 0

文章摘要

MoE（混合专家）模型在扩展模型能力方面具有显著优势，但其训练过程中面临效率不足和资源分配不均的挑战。华为通过构建Adaptive Pipe & EDPB优化方案，解决了MoE训练中的通信阻塞和负载不均问题，显著提升了训练效率。首先，华为开发了DeployMind仿真平台，能够在1小时内模拟百万次训练场景，快速找到最优并行策略。其次，Adaptive Pipe通信掩盖框架通过层次化All-to-All通信和自适应细粒度前反向掩盖，实现了98%以上的通信掩盖，使计算不再等待通信。此外，EDPB全局负载均衡技术通过专家预测动态迁移、数据重排和虚拟流水线层间负载均衡，进一步提升了训练吞吐量25.5%。

在具体实现中，华为创新性地将通信过程分为两步：首先在机器内部快速收集数据块，然后利用高速通道完成交换，减少了跨机通信的负担。这种分层设计使通信速度提升了一倍。同时，Adaptive Pipe通过虚拟流水线并行技术，将内存占用减半，释放了流水线的峰值性能潜力。EDPB技术则通过预测负载趋势、双层优化和智能触发机制，实现了专家在分布式设备间的智能流动，解决了设备间负载不均的问题。

在Pangu Ultra MoE 718B模型的训练实践中，华为的优化方案实现了系统端到端72.6%的训练吞吐提升。这一成果为大模型训练优化提供了关键路径，显著提升了训练效率和资源利用率。华为的技术报告详细介绍了这些优化方案的具体实现和实验结果，为相关领域的研究和实践提供了重要参考。