100%英伟达的错:黄仁勋确认Blackwell缺陷修复,明年初出货
文章摘要
【关 键 词】 英伟达、Blackwell、良率问题、AI芯片、台积电
英伟达的Blackwell AI芯片自3月份发布以来,因其设计缺陷导致良率低下,引起了全球科技公司的广泛关注。CEO黄仁勋在与高盛的会议中宣布,这一设计缺陷已得到修复,B100/B200处理器的改进版即将投入量产。黄仁勋承认,这一缺陷完全由英伟达造成,并非台积电的责任。尽管有报道暗示这一问题可能导致英伟达与台积电关系紧张,但黄仁勋驳斥了这一说法。
Blackwell芯片采用新一代架构,由台积电4NP工艺打造,拥有2080亿个晶体管,执行大模型推理等任务时效率较前代提升了30倍。然而,由于芯片面积较大,不能通过传统方式打造,B100和B200 GPU型号使用台积电的CoWoS-L封装技术连接两个芯片。这一技术依赖于配备局部硅互连(LSI)桥接器的RDL中介层,以实现约10TB/s的数据传输速率。但由于GPU芯片、LSI桥接器、RDL中介层和主板基板之间的热膨胀特性可能不匹配,导致系统弯曲和故障。
英伟达在8月承认了其Blackwell GPU的良品率低,需要修改GPU硅片的顶部金属层和凸片,以提高生产良率。公司在第二季度与客户一起对Blackwell GPU进行了抽样检查,并承认必须生产“低良率Blackwell材料”以满足需求。黄仁勋在2025财年第二季度财报电话会议上表示,公司针对Blackwell B100和B200 GPU的设计进行了所有必要的变更,有望在第四季度实现量产。
在半导体行业中,影响良率的bug和重大功能问题并不罕见。公司通常通过修改金属层等新步进来修复这些问题。英特尔的Sapphire Rapids有500个bug,因此发布了约十几个步进来修复所有bug。每个新步进大约需要三个月才能完成。
英伟达和台积电修复Blackwell GPU的速度令人印象深刻。已修复的用于AI和超级计算机的Blackwell GPU预计将于最近几天投入量产,并在2025年初开始发货。AWS、谷歌、Meta和微软是英伟达的主要客户,为满足他们对新一代AI算力的需求,公司必须在本年度出货一些最初低良率的Blackwell GPU。然而,2024年究竟会有多少Blackwell GPU被送往数据中心,目前尚不得而知。
原文和模型
【原文链接】 阅读原文 [ 1175字 | 5分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆