
文章摘要
在Nvidia GTC大会上,首席执行官黄仁勋详细展示了公司未来的技术路线图,揭示了计算扩展、电力需求和数据中心设计等方面的重大挑战。Nvidia计划推出下一代Blackwell Ultra处理器,并透露了未来两代加速计算平台的细节,包括一个包含576个GPU的600kW机架级系统。这一系统预计将在2028年问世,并以物理学家Richard Feynman的名字命名。尽管芯片制造商通常会透露其发展路线图,但Nvidia此次一次性披露如此多的信息,反映了其面临的复杂挑战。
计算扩展是Nvidia面临的首要挑战。随着工艺技术进步的放缓,Nvidia的策略是通过增加每个计算节点的硅片数量来扩展计算能力。目前,Nvidia最密集的系统使用72个GPU,并通过NVLink结构将它们整合到一个计算域中。在GTC大会上,Nvidia宣布计划将每机架的GPU数量提升至144个,最终达到576个。这一扩展不仅限于机架,还涉及芯片封装。Blackwell加速器的推出表明,Nvidia通过增加芯片数量、引入新的数据类型和提高功率来实现性能提升。然而,尽管Blackwell芯片的性能比Hopper高出5倍,但其FP16性能仅比GH100快1.25倍,这表明性能提升的代价是更高的功耗和更大的芯片面积。
电力需求是Nvidia面临的另一个重大挑战。随着计算密度的增加,机架的功耗也在急剧上升。黄仁勋预计,到2027年,机架功率将达到600kW,这将对数据中心运营商提出更高的要求。冷却兆瓦级超密集计算已经成为一个棘手的问题,尽管Cray、Eviden和联想等公司多年来一直在解决这一问题,但Nvidia的600kW机架级系统将进一步加剧这一挑战。为了应对这一问题,Nvidia与施耐德电气等合作伙伴共同设计了专用数据中心,以满足人工智能的电力和散热需求。
数据中心的改造和建设也成为Nvidia面临的难题。云厂商如微软已经放缓了数据中心建设的步伐,部分原因是现有数据中心无法满足高端人工智能硬件的电力和冷却需求。Nvidia的NVL72机架级系统承诺推理性能将达到Hopper GPU的30倍,训练性能将达到4倍,但这也意味着更高的功耗和更多的废热产生。微软已经表示需要全新的数据中心设计,并开始改造现有设施以支持液体冷却。然而,改造现有设施需要时间,而Nvidia已经在规划600kW机架,这可能会进一步加剧数据中心的压力。
Nvidia在中国的业务也面临不确定性。由于美国政府的禁令,Nvidia无法向中国出售最先进的芯片,只能销售功能削弱版本的A800和H800芯片。尽管这些芯片在中国市场仍然热销,但中国监管机构正在考虑出台能效规定,这可能会进一步限制Nvidia的销售。Nvidia正在寻求与中国监管机构进行谈判,并考虑进行技术变革以满足规定,但这可能会削弱芯片的性能,并使其面临来自华为等中国国内竞争对手的竞争压力。
总的来说,Nvidia的未来发展道路充满了挑战,包括计算扩展、电力需求、数据中心设计和市场限制等方面。尽管Nvidia在技术路线图上展示了雄心勃勃的计划,但其成功将取决于能否有效应对这些复杂的挑战。
原文和模型
【原文链接】 阅读原文 [ 4451字 | 18分钟 ]
【原文作者】 半导体行业观察
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★