一颗芯片带来的焦虑

1,711 0 0

文章摘要

英伟达近期面临一系列挑战，首先是Blackwell GPU因设计缺陷导致量产延迟，该问题涉及台积电的CoWoS封装技术，最终通过改变光罩解决。随后，Blackwell GPU在高容量服务器机架中出现严重过热问题，迫使英伟达重新评估和修改设计，延迟了产品交付，引起了谷歌、Meta和微软等主要客户的担忧。过热问题限制了GPU性能，并可能损坏组件，英伟达与供应商合作进行工程改进以提升散热能力。尽管英伟达发言人将设计变更描述为正常开发流程，但过热问题仍是技术挑战。

Blackwell GPU的过热问题可能源于其高功率密度，每个机架耗电量高达120千瓦。英伟达指示供应商进行多项设计修改，以解决过热问题。尽管这些调整在大型技术发布中常见，但增加了延迟，推迟了发货时间。英伟达与云服务提供商合作，确保最终产品满足性能和可靠性期望，同时努力解决技术挑战。

英伟达的Blackwell处理器因设计缺陷影响良率，导致生产计划推迟。Blackwell B100和B200 GPU使用台积电的CoWoS-L封装技术，支持高达10 TB/s的数据传输速度。但由于GPU芯片、LSI桥、中介层和主板基板之间的热膨胀特性不匹配，导致器件翘曲及系统故障。英伟达对GPU芯片的顶部金属层和焊点结构进行了修改，以提高生产可靠性。

过热问题似乎是英伟达两次出现问题的主要原因，封装内的过热和机架的过热，使得未来Blackwell其他地方也可能出现过热问题。英伟达准备使用的HBM也传出过热问题，三星的HBM3和HBM3E因过热和功耗问题未能通过测试，直到几个月后才解决并供货给英伟达。

半导体分析公司Semianalysis的首席分析师认为，散热将是Blackwell的主要关注点，但设计问题已得到解决。尽管过热芯片的传言被夸大，但散热系统出现问题，导致供应商重新设计。大型数据中心需要液冷作为散热手段，任何不愿意或无法提供更高密度液冷的数据中心将错过性能总拥有成本（TCO）改进的机会，并在生成式人工智能竞赛中落后。

乔治亚理工学院教授Bara Cola认为，机械应力而非热量是Blackwell面临的最大挑战。高性能芯片总是运行得很热，关键在于如何平衡温度，聪明的工程师会解决这个问题。但当界面无法承受热膨胀应力带来的影响时，就会发生早期失效，这是一个困难的材料科学问题。

过热问题对数据中心至关重要，过热的芯片在冷却前会停止工作，影响芯片在给定时间内完成的计算工作，停机时间和散热成本影响芯片使用寿命期间的总拥有成本，决定数据中心是赚钱还是亏钱。

目前半导体行业担忧集中在GB200 NVL72上，它代表数据中心的新前沿。名称中的“72”指的是服务器中的72个Blackwell图形处理单元，还有36个传统中央处理单元。由于这么多芯片紧密组合，单个机架会变得非常热，需要引入新的散热手段。

Semianalysis提到的液冷并非新鲜事物，但在数据中心规模上应用液冷的情况相对较少。Meta已重新设计其数据中心，以适应未来几代AI芯片更高的功率密度和散热需求。随着超大规模企业和少数其他英伟达客户开始收到芯片，液冷可能成为更多企业的选择。未来，新的数据中心将配备液冷设施，许多现有设施也正在进行改造。这是一项艰巨的任务，除了所有组件都必须完美配合以避免任何泄漏外，液体还必须在精确的温度下循环。

大规模液冷还带来了环境问题。亚马逊内部文件显示，亚马逊在一些地区正在给当地政府的现有基础设施带来压力，以获取水资源，并依赖长期基础设施升级或建立自己的解决方案来缓解这一问题。

尽管转向液冷需要付出艰苦的努力并给环境带来压力，但这样做的激励因素也很强烈，随着越来越多的Blackwell被交付，数据中心必然会采取这一更优异的散热手段。

英伟达显然远比数据中心更早看到热量问题，随着服务器芯片的TDP不断增加，B200芯片的TDP已达到1000W，传统的空气冷却解决方案已无法满足需求，GB200 NVL36和NVL72完整机架系统的TDP分别达到70kW和近140kW，因此必须用液冷解决方案。

去年，英伟达提出数据中心散热的想法，即同时用液体冷却和浸没式冷却。这一概念结合了直接液体冷却（DLC）硅片和为其他组件提供浸没式冷却，是美国能源部（DOE）在其COOLERCHIPS计划下授予的500万美元资助的研究主题。该计划旨在将数据中心冷却所消耗的电力降低到IT本身所消耗电力的5%以下。

英伟达的服务器冷却概念与之前在Submer或LiquidStack等公司看到的罐式浸没冷却设置大相径庭。它保留了大多数空气冷却和直接液体冷却机箱中使用的标准机架式外形，采用相变制冷剂，类似于冰箱和空调中使用的物质。随着主板温度升高，液体会沸腾、冷凝，然后滴落回原处。然而，英伟达的概念也要求对CPU和GPU进行传统的直接液体冷却。

从理论上讲，这应该能让英伟达实现双温区：一个用于高热设计功耗（TDP）组件（如CPU和GPU），另一个用于较冷的组件（如内存或网卡）。

英伟达对液体冷却并不陌生。这家加速器巨头已经为其SXM GPU模块提供了几年的液体冷却外形，然而直到2022年5月的台北电脑展，它才开始为其流行的A100 PCIe卡提供直接液体冷却外形，并计划从2023年开始推出液体冷却的H100。

英伟达计划在2026年交付一个结合液体和浸没式冷却的测试系统，并承诺会尽快提供实现该目标的进展更新。据介绍，在第一年，工程师们将专注于组件测试，然后在2025年进行部分机架测试。为此，英伟达已邀请液体冷却专家BOYD Corp协助设计冷板；两相冷却冠军Durbin Group负责研制泵；Honeywell提供制冷剂；数据中心基础设施提供商Vertiv负责散热。

更有意思的是，英伟达并不是唯一一家致力于数据中心冷却技术的公司，英特尔也在去年分享了其在开发能够从单个芯片中散发千瓦热量的多种系统方面取得的进展。其中许多设计都聚焦于类似的概念，比如将整个系统浸入装满绝缘液体的容器中，还探索使用先进制造技术将3D蒸汽室嵌入“珊瑚形散热器”中，而向芯片热点喷射冷却水的微型喷嘴是另一种想法。

尽管该领域的研究仍在继续，但英特尔的财务困境导致了一些障碍，包括取消了在俄勒冈州耗资7亿美元的液体和浸没式冷却“超级实验室”。