
文章摘要
在2025年华为云生态大会上,华为推出了CloudMatrix 384超节点,旨在应对AI时代的海量算力需求。这一新型架构基于“一切可池化、一切皆对等、一切可组合”的高速互联总线,实现了从服务器级到矩阵级的资源供给模式转变。CloudMatrix 384具备“高密”“高速”“高效”的特点,通过全面的架构创新,在算力、互联带宽、内存带宽等方面实现全面领先。该架构通过超高带宽、低延迟的统一总线(UB)网络,支持直接的全节点通信,使计算、内存和网络资源能够动态池化、统一访问和独立扩展,尤其适用于通信密集型操作,如大规模MoE专家并行和分布式键值缓存访问。
华为与硅基流动合著的论文《Serving Large Language Models on Huawei CloudMatrix384》详细介绍了这一架构。CloudMatrix 384集成了384个昇腾910C NPU、192个鲲鹏CPU及其他硬件组件,通过UB网络实现高效互连。与传统的分层设计不同,该架构通过UB实现了直接的全节点通信,允许计算、内存和网络资源动态池化、统一访问和独立扩展。这一设计特别有利于通信密集型操作,如大规模MoE专家并行和分布式键值缓存访问,使CloudMatrix 384成为下一代LLM服务的可扩展高性能基础。
CloudMatrix的愿景是构建一个统一、紧耦合的计算结构,以高效支持现代AI应用的规模化、异构性和通信需求。该架构的核心是超高带宽、低延迟的UB网络,支持跨NPU的直接高吞吐量点对点通信,使TP和EP组能够超越单个节点的边界进行扩展。此外,CloudMatrix将CPU、NPU和内存分解为独立的池化资源,实现细粒度的、工作负载驱动的资源组合,从而将部署从固定节点配置或基于PCIe的主机设备耦合中解放出来。
CloudMatrix 384的硬件架构包括三个独特的网络平面:UB平面、RDMA平面和VPC平面。UB平面构成超级节点内主要的超高带宽纵向扩展架构,直接连接所有384个NPU和192个CPU,每台Ascend 910C提供超过392GB/s的单向带宽。RDMA平面支持跨CloudMatrix384超级节点和外部RDMA兼容系统的横向扩展通信,而VPC平面通过高速网卡将CloudMatrix384超级节点连接到更广泛的数据中心网络。
华为还为昇腾NPU开发了全面的软件生态系统,称为神经网络计算架构(CANN)。CANN充当中间软件层,实现高级AI框架与昇腾NPU的低级硬件接口之间的高效集成,简化了开发人员与昇腾硬件的交互,促进了软硬件协同设计。此外,华为云提供了一套完善的基础设施软件,包括MatrixResource、MatrixLink、MatrixCompute和MatrixContainer,旨在抽象硬件复杂性,并通过标准云API实现无缝的资源编排。
未来,CloudMatrix架构将继续演进,以适应新兴AI工作负载的需求。潜在的发展方向包括统一VPC和RDMA平面、扩展超级节点规模、实现CPU和NPU资源的物理分解和池化,以及集成更多异构硬件资源。这些改进将进一步提升CloudMatrix的可扩展性、灵活性、效率和性能,满足未来AI模型和应用场景的需求。
原文和模型
【原文链接】 阅读原文 [ 9141字 | 37分钟 ]
【原文作者】 半导体行业观察
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★