英伟达GB 300细节曝光，下一代GPU怪兽

2,279 0 0

文章摘要

Nvidia的第二代Blackwell B300系列处理器预计将带来显著的性能提升和内存容量增加。与前代B200系列相比，B300系列的计算性能提高了50%，而热设计功耗(TDP)仅增加了200W，达到1,400W。B300系列采用台积电的4NP制造工艺，针对Nvidia进行了优化，以提升性能。此外，B300系列采用了12-Hi HBM3E内存堆栈，提供高达288GB的内存和8TB/s的带宽，这将加速训练和推理过程，并可能将推理成本降低三倍。

B300系列还可能集成Nvidia的800G ConnectX-8 NIC，其带宽是当前400G ConnectX-7的两倍，并且拥有48个PCIe通道，相比前代的32个通道有所增加，为新服务器提供了显著的横向扩展带宽改进。Nvidia还对供应链进行了重新设计，不再销售整个参考主板或服务器机箱，而是只销售搭载SXM Puck模块、Grace CPU和Axiado HMC的B300，这将允许更多公司参与Blackwell供应链，使基于Blackwell的机器更易获得。

B300系列的推出对超大规模企业和OEM合作伙伴来说是一个福音，因为它们将有更多的自由来设计Blackwell机器，这可能会影响它们的定价和性能。B300系列的推出，特别是对推理模型推理和训练性能的提升，为亚马逊等超大规模企业准备了一份特别的圣诞礼物。随着向B300的转移，整个供应链正在重组和转变，为许多赢家带来了礼物，但也有一些输家得到了煤炭。

B300 GPU基于TSMC 4NP工艺节点，提供比B200高50%的FLOPS，部分性能提升来自额外的200W功率，而其余性能提升则来自架构增强和系统级增强。内存从8-Hi升级到12-Hi HBM3E，每个GPU的HBM容量增加到288GB，但引脚速度保持不变，因此内存带宽仍为每GPU 8TB/s。Nvidia的GB200 NVL72和GB300 NVL72对于实现许多关键功能至关重要，包括更高的交互性、更低的延迟、更长的思维链和更好的批量大小扩展效果。

随着GB300的推出，Nvidia提供的供应链和内容发生了巨大变化。Nvidia不再提供整个Bianca主板，而是仅提供“SXM Puck”模块上的B300、BGA封装上的Grace CPU以及来自Axiado的HMC。最终客户现在将直接采购计算板上的剩余组件，第二层内存将是LPCAMM模块，而不是焊接的LPDDR5X。美光将成为这些模块的主要供应商。转向SXM Puck为更多OEM和ODM参与计算托盘提供了机会。

Nvidia还在GB300平台上提供800G ConnectX-8 NIC，在InfiniBand和以太网上提供两倍的横向扩展带宽。ConnectX-8相比ConnectX-7有了巨大改进，不仅拥有2倍带宽，还拥有48个PCIe通道，从而支持独特的架构，例如风冷MGX B300A。此外，ConnectX-8还支持SpectrumX，而在之前的400G代产品中，SpectrumX所需的Bluefield 3 DPU效率要低得多。

GB200和GB300延迟对超大规模计算的影响意味着，从第三季度开始，许多订单将转向Nvidia新的更昂贵的GPU。所有超大规模计算公司都已决定继续使用GB300。部分原因是GB300的性能因更高的FLOPS和更大的内存而提高，但也有一部分原因是他们能够掌控自己的命运。借助GB300，超大规模数据中心运营商能够定制主板、冷却系统等，这使得亚马逊能够构建自己的定制主板，该主板采用水冷，并集成了之前采用风冷的组件，例如Astera Labs PCIe交换机。在25年第三季度，水冷更多组件以及最终在K2V6 400G NIC上实现HVM意味着亚马逊可以重新转向NVL72架构并大大改善其TCO。