文章摘要
【关 键 词】 AI芯片、算力提升、显存升级、推理模型、成本效益
英伟达近期推出了AI芯片领域的新核弹——GPU新核弹B300和附带CPU的超级芯片GB300。这两款产品在算力和显存方面相比前代B200有显著提升,FLOPS提高50%,显存从192GB提升至288GB,同样提升了50%。GB300 NVL72,包含72块GB300,被认为是唯一能让OpenAI o1/o3推理大模型在高batch size下达到10万tokens的方案。B300系列的算力提升主要来自工艺节点、增加功率和架构微创新,如CPU和GPU之间的动态功率分配。显存方面,从8层堆叠的HBM3E升级到12层,显存容量翻倍,但带宽保持不变。
GB300系列的产品交付方式也有所变化,只提供参考板,包括两颗B300 GPU、一颗Grace CPU和HMC,而LPCAMM内存模块等组件由客户自行采购,这为OEM和ODM制造商带来了新机会。显存的升级对推理大模型至关重要,因为它影响KVCache、batch size和延迟。GB300 NVL72使72个GPU能够以极低延迟处理相同的问题,并共享显存,从而降低每个思维链的延迟,实现更长的思维链,降低推理成本,并提高模型能力。
SemiAnalysis通过对比H100和H200两种GPU处理长序列时的性能,展示了升级带来的显著改进。H200的内存带宽更大,处理效率提高了43%,并且可以运行更高的batch size,每秒生成的token数量增加了3倍,成本减少了约3倍。内存增加带来的效益远超摩尔定律,推理模型响应时间的缩短可以提高用户体验和使用频率,而性能提升和成本减少也使得前沿模型的毛利率超过70%。
除了AI芯片,英伟达的消费级显卡RTX5090的PCB板也首次曝光,预计将配备32GB大显存,支持8K超高清游戏,实现60fps的流畅游戏体验。网友们对RTX5090的发布时间充满期待,猜测可能会在1月6日的CES演讲中亮相。
原文和模型
【原文链接】 阅读原文 [ 1077字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆