文章摘要
【关 键 词】 Nvidia、Blackwell、技术挑战、产能问题、散热挑战
Nvidia 的 Blackwell 系列在大批量生产方面遭遇重大问题,影响了其2024年第三季度至明年上半年的生产目标,进而影响产量和收入。为弥补延迟,Nvidia 延长了 Hopper 系列的使用寿命和出货量,同时 Blackwell 系列的产品时间表推迟,产量受影响较大。
技术挑战迫使 Nvidia 创造新的系统,对供应商产生影响。Nvidia Blackwell 系列中,GB200 芯片技术选择大胆,72 GPU 机架功率密度高达125 kW,远超数据中心标准。这带来电力输送、过热、水冷供应链、漏水、电路板复杂性等挑战,尽管大多数问题较小,并非减少产量或重做路线图的原因。
核心问题与 Blackwell 架构设计相关,特别是台积电封装问题和 Nvidia 设计,导致原始 Blackwell 封装供应有限。CoWoS-L 技术用于封装,存在挑战,如硅片、桥、有机中介层和基板的热膨胀系数不匹配导致的翘曲,以及桥接芯片放置精度问题。
台积电 CoWoS-L 产能不足,Nvidia 集中产能于 GB200 NVL 36×2 和 NVL72 系统。Nvidia 推出基于 B102 芯片的 Blackwell GPU B200A,用于低端和中端 AI 系统,取代 B100 和 B200 芯片。B200A Ultra 版本不会升级内存,但可能提高 FLOPS,引入新的 MGX NVL 36 外形尺寸。
对于 HPC 市场,GB200 NVL72 / 36×2 对超大型参数模型具有吸引力,但超大规模客户可能选择 MGX GB200A NVL36。HGX Blackwell 服务器仍将被购买,但数量减少。小型机型和训练工作量少于 5,000 GPU 的场景中,HGX 表现出色。
Neocloud 市场客户可能不会购买 GB200 NVL72 / 36×2,因为寻找支持液体冷却或高功率密度的主机托管提供商复杂。大多数 Neocloud 部署针对 Hopper,MGX GB200 NVL36 可能更适合,因为只需空气冷却。
MGX GB200A Ultra NVL36 是一款风冷 40kW/机架服务器,36 个 GPU 通过 NVLink 互连,9 个计算托盘和 9 个 NVSwitch 托盘。设计中 CPU 与 GPU 比例为 1:4,使用集成的 ConnectX-8 PCIe 交换机让 GPU 与 CPU 通信。后端 NIC 现在将负责两个 GPU,提供 400G 的后端 InfiniBand/RoCE 带宽。
散热挑战是 MGX GB200A NVL36 的重大风险。2U 计算托盘需要专门设计的散热器和高速风扇。如果设计不可行,Nvidia 可能需要重新设计计算托盘或缩小 NVLink 世界大小。此外,由于 Grace CPU 和 Blackwell GPU 位于不同 PCB,可能有 x86 + B200A NVL36 版本,但散热挑战依然存在。
Nvidia 曾试验风冷 NVL64 机架设计,但因多种问题被认为不可行。NVL64 存在功率预算过高、散热挑战、端口不匹配等问题。相比之下,NVL36 提供更实际的配置,允许一个计算托盘处于热备用状态,实现更高可靠性。
原文和模型
【原文链接】 阅读原文 [ 5600字 | 23分钟 ]
【原文作者】 半导体行业观察
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★