SemiAnalysis:GTC 2025最专业的解读来了

SemiAnalysis:GTC 2025最专业的解读来了

 

文章摘要


【关 键 词】 AI硬件软件推理算力

在GTC大会上,NVIDIA展示了其在硬件软件领域的多项创新,旨在推动AI模型的训练和部署。报告详细分析了NVIDIA如何通过其硬件和软件解决方案支持DeepSeek等AI模型的训练和推理,并探讨了AI算力需求的变化趋势。

推理token的大爆炸是本次大会的核心主题之一。随着AI模型的不断优化,推理成本大幅降低,推动了智能应用的广泛普及。英伟达通过硬件和软件的双重创新,将推理成本降低了35倍,使得模型部署更加经济高效。尽管市场对DeepSeek等软件优化带来的算力需求减少表示担忧,但报告指出,随着智能服务价格的下降,智能能力的前沿不断拓展,需求反而会进一步增加。这一现象被称为“杰文斯悖论”,即效率提升带来的成本下降会刺激更多消费。如今,模型需要处理的token数量已超过100万亿,推理模型的token数量是之前的20倍,计算量是之前的150倍,这表明AI应用的实际影响仍处于起步阶段。

Jensen Math的变化是另一个值得关注的焦点。英伟达CEO黄仁勋在介绍公司产品时,使用了一些独特的计算规则,这些规则被称为“Jensen Math”。例如,英伟达公布的浮点运算次数基于2:4稀疏度计算,而非现实世界中的密集浮点运算。此外,带宽的计算方式也以双向标注,而非行业标准的单向标注。这些规则虽然让外界感到困惑,但也反映了英伟达在技术指标上的独特视角。

在硬件方面,英伟达的产品路线图展示了其未来的发展方向。Blackwell Ultra B300作为新一代GPU,其FP4 FLOPs密度比前代提高了50%以上,内存容量也升级到每个封装288GB。尽管双精度工作负载的减少让HPC社区感到失望,但英伟达更注重AI市场的需求,因为这是其更重要的业务领域。此外,Rubin系列GPU的推出进一步提升了计算能力,其密集FP4计算能力达到50 PFLOPs,相比B300实现了三代以来超过三倍的提升。Rubin采用了3nm工艺,并通过I/O芯片的优化释放了更多空间用于计算单元,进一步提升了性能。

Rubin Ultra是性能提升的显著代表,其计算能力翻倍至100 PFLOPs,HBM容量达到1024GB,是普通Rubin容量的3.5倍以上。这一提升不仅得益于堆栈数量的增加,还因为密度和层数的优化。此外,Kyber机架架构的引入进一步增强了系统的内存和带宽能力,为大规模AI应用提供了强有力的支持。

总体而言,英伟达通过硬件和软件的双重创新,继续在AI领域保持领先地位。尽管市场对算力需求的减少表示担忧,但随着智能服务成本的下降,AI应用的需求将进一步扩大,推动整个行业的发展。

原文和模型


【原文链接】 阅读原文 [ 8866字 | 36分钟 ]
【原文作者】 Founder Park
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...