华为CloudMatrix384超节点：官方撰文深度解读

5,564 0 0

文章摘要

在2025年华为云生态大会上，华为推出了CloudMatrix 384超节点，旨在应对AI时代的海量算力需求。这一新型架构基于“一切可池化、一切皆对等、一切可组合”的高速互联总线，实现了从服务器级到矩阵级的资源供给模式转变。CloudMatrix 384具备“高密”“高速”“高效”的特点，通过全面的架构创新，在算力、互联带宽、内存带宽等方面实现全面领先。该架构通过超高带宽、低延迟的统一总线（UB）网络，支持直接的全节点通信，使计算、内存和网络资源能够动态池化、统一访问和独立扩展，尤其适用于通信密集型操作，如大规模MoE专家并行和分布式键值缓存访问。

华为与硅基流动合著的论文《Serving Large Language Models on Huawei CloudMatrix384》详细介绍了这一架构。CloudMatrix 384集成了384个昇腾910C NPU、192个鲲鹏CPU及其他硬件组件，通过UB网络实现高效互连。与传统的分层设计不同，该架构通过UB实现了直接的全节点通信，允许计算、内存和网络资源动态池化、统一访问和独立扩展。这一设计特别有利于通信密集型操作，如大规模MoE专家并行和分布式键值缓存访问，使CloudMatrix 384成为下一代LLM服务的可扩展高性能基础。

CloudMatrix的愿景是构建一个统一、紧耦合的计算结构，以高效支持现代AI应用的规模化、异构性和通信需求。该架构的核心是超高带宽、低延迟的UB网络，支持跨NPU的直接高吞吐量点对点通信，使TP和EP组能够超越单个节点的边界进行扩展。此外，CloudMatrix将CPU、NPU和内存分解为独立的池化资源，实现细粒度的、工作负载驱动的资源组合，从而将部署从固定节点配置或基于PCIe的主机设备耦合中解放出来。

CloudMatrix 384的硬件架构包括三个独特的网络平面：UB平面、RDMA平面和VPC平面。UB平面构成超级节点内主要的超高带宽纵向扩展架构，直接连接所有384个NPU和192个CPU，每台Ascend 910C提供超过392GB/s的单向带宽。RDMA平面支持跨CloudMatrix384超级节点和外部RDMA兼容系统的横向扩展通信，而VPC平面通过高速网卡将CloudMatrix384超级节点连接到更广泛的数据中心网络。

华为还为昇腾NPU开发了全面的软件生态系统，称为神经网络计算架构（CANN）。CANN充当中间软件层，实现高级AI框架与昇腾NPU的低级硬件接口之间的高效集成，简化了开发人员与昇腾硬件的交互，促进了软硬件协同设计。此外，华为云提供了一套完善的基础设施软件，包括MatrixResource、MatrixLink、MatrixCompute和MatrixContainer，旨在抽象硬件复杂性，并通过标准云API实现无缝的资源编排。

未来，CloudMatrix架构将继续演进，以适应新兴AI工作负载的需求。潜在的发展方向包括统一VPC和RDMA平面、扩展超级节点规模、实现CPU和NPU资源的物理分解和池化，以及集成更多异构硬件资源。这些改进将进一步提升CloudMatrix的可扩展性、灵活性、效率和性能，满足未来AI模型和应用场景的需求。