
文章摘要
模型开发已经从早期的算法层优化转向系统工程层面的深度创新,标志着技术领域的重大转变。随着数字化时代的比特流量逐渐转向Token经济体系,国内Token日消耗量从千亿级跃升至十万亿级,头部平台如DeepSeek日均处理6000亿Token,验证了高吞吐、低时延系统的商业价值。模型结构也从单一架构探索发展为多模态融合创新,大模型的驱动部署模式发生根本转变,传统单卡部署已无法满足高吞吐、高并发的需求,分布式集群部署成为新常态。
华为技术专家在鲲鹏昇腾开发者大会2025(KADC2025)前,向InfoQ介绍了其为DeepSeek所做的调优工作。优化主要集中在三个方面:算子层面、计算与通信优化以及计算并行方面。华为实现了MRN的PO融合算子,提升了算子执行效率;进行了低时延通信优化,实现了双链路通信掩盖;支持多专家并行的动态负载均衡,优化了计算资源的动态分配。这些优化不仅是对DeepSeek优化路径的延续和兼容,也是在其基础上的进一步突破。
在预训练方面,华为完整复现了幻方的DualPipe技术,并基于VirtualPipe改进的流水方案,通过warm-up多个micro-batches,实现前后向交织通信掩盖,节省静态权重显存。最终,团队给出了DualPipe-V方案,进一步优化显存使用,是静态与动态显存占用最小的方案,已集成至MindSeed。内存优化方面,华为自研了重计算技术,不同于PyTorch的checkpoint机制,后者无法清除输出激活值,重计算技术方案则能清除这部分激活值,适用于计算量小但激活值大的操作,可节省多个GB显存。
系统架构方面,华为提出并实现了业界当前常用的PD(Prompt Decoder)分离部署,降低了首token的延迟并提升整体推理效率。面对应用日益广泛的MOE架构,华为做了针对性的底层优化。MOE架构的核心特点是引入了大量的专家模块和复杂的路由机制,随着MOE架构的不断发展与优化,主流模型在不断扩展专家数量,DeepSeek V3/R1已经有288个专家,未来专家数量可能还会进一步提升。华为研发了新的“超节点”架构,通过高速总线将上百张GPU卡互联成一个超大节点,所有专家模块被合理地分布在这些卡上运行,卡与卡之间通过高速总线互联,显著减少了通信时延,提升训练吞吐率。
华为还自上而下设计了AI的智算集群Atlas 900 A3 SuperCluster,该集群在测试中突破Scale up物理节点计算瓶颈,让成百上千个NPU以TB级带宽超高速互联、内存统一编址。通过算、网、存等跨域技术协同,进一步提升Scale Out的集群计算效率和可靠性。Atlas 900 A3 Super Cluster的平均无故障运行时长从几小时提升到几天,训练效率也提升了2.7倍。
在推理效率方面,华为团队在过去两个月内已经将推理效率提升了近20倍。实现这一增长的核心技术包括:引入动态专家并行策略,取代传统张量并行,规避张量并行阶段由路由计算量膨胀带来的显存和计算浪费;引入数据并行,相对张量并行,可以解决DeepSeek MoE架构中的KV Cache跨卡复制问题;提供长序列并行策略,提升在长序列场景下的推理能力。华为是最早提出“大规模专家并行(大EP)方案”的团队之一,目前大EP方案已开始落地应用。
但专家并行并非是一本万利的,还会带来负载均衡方面的挑战。华为团队通过静态、分段及动态均衡负载算法,重新对专家按照负载进行排序,达到削峰填谷的目的,以保障在推理阶段各个卡上专家所处理token数量近似,很大程度上规避负载不均衡问题。近日,华为发布了OmniPlacement算法,通过分析专家激活数据来识别热/冷专家,并提出基于计算均衡的优化算法。其特点包括:动态优先级调整,实时统计专家调用频率,优先将高频专家部署到强计算节点;通信优化:分析批次激活模式,减少跨节点通信延迟;层间差异化部署:根据各层负载特性,灵活配置专家部署策略。相较DeepSeek的EPLB算法,OmniPlacement在动态适应性、理论收敛性和高并发场景下表现更优,显著提升资源利用率。在昇腾平台测试中,OmniPlacement在理论上可降低约10%推理延迟,提升10%吞吐量。
AICon 2025强势来袭,5月上海站、6月北京站,双城联动,全览AI技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI产品设计和出海策略等话题。即刻扫码购票,一同探索AI应用边界。
原文和模型
【原文链接】 阅读原文 [ 2342字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★