刚刚，老黄携GB300震撼登场！DeepSeek推理暴涨40倍加速全球最快，26年Rubin问世

3,196 0 0

文章摘要

在刚刚结束的GTC大会上，英伟达发布了多项重磅技术进展，展示了其在AI和计算领域的领先地位。Blackwell Ultra GPU的推出标志着推理性能的显著提升，其性能达到Hopper架构的40倍，显存从192GB提升至288GB，AI性能更是比GB200 NVL72高出1.5倍。下一代GPU Rubin预计在2026年下半年发布，其推理速度将比Blackwell快一倍多，显存带宽从8TB/s提升至13TB/s，NVLink吞吐量更是达到260TB/s。Rubin Ultra版本在FP4精度下推理性能达到15 ExaFLOPS，训练性能为5 ExaFLOPS，较GB300 NVL72提升了14倍。

英伟达的未来三年路线图显示，GPU将每年更新一次，Blackwell Ultra预计2025年下半年上市，Rubin则将在2026年问世。 英伟达正在构建三大AI基础设施：云上AI基础设施、企业AI基础设施和机器人AI基础设施。未来，每个拥有工厂的公司都将拥有两个工厂，一个是实体工厂，另一个是用于数学运算的AI工厂。CUDA-X软件库已经准备好，推动全行业的变革。

Scaling Law并未如外界所预测的那样撞墙，反而在DeepSeek R1的推动下，推理时的Scaling Law出现了全新的发展路线。老黄在大会上强调，AI正处于转折点，训练和推理对计算量的需求大幅增加。Blackwell NVL72结合Dynamo推理性能提升了40倍，相当于一座Hopper AI工厂的性能。英伟达还展示了其在大规模GPU集群扩展方面的技术突破，通过InfiniBand和Spectrum X网络，成功scale up了有史以来最大的单GPU集群。

英伟达预言，到2028年，数据中心建设将达到一万亿美元的规模。随着Blackwell GPU的全面发货，英伟达还推出了Blackwell RTX PRO工作站和服务器系列，专为开发者、创意工作者和数据科学家提供全方位的AI支持。DGX Spark和DGX Station两款桌面超级计算机，将数据中心级别的性能带到每个人的桌面，用于AI开发。

在推理模型方面，英伟达推出了开源推理软件NVIDIA Dynamo，旨在以最低成本和最高效率加速和扩展AI工厂中的推理模型。Dynamo能协调并加速数千个GPU之间的推理通信，确保GPU资源被充分利用。在GB200 NVL72集群上运行DeepSeek-R1模型时，Dynamo的智能推理优化让每个GPU生成的token数量提升超过30倍。

英伟达还宣布了世界首个开源、完全可定制的通用人形机器人模型GROOT N1，该模型采用双系统架构，能够进行快思考和慢思考，适用于多种复杂任务。英伟达与DeepMind、迪士尼研究合作开发的下一代开源Newton物理引擎，将进一步提升机器人在复杂任务中的精确处理能力。

总的来说，英伟达通过Blackwell、Rubin等新一代GPU，以及Dynamo、GROOT N1等软件和机器人模型，展示了其在AI、推理、机器人等领域的全面领先地位。未来，随着数据中心规模的不断扩大，英伟达将继续推动AI技术的进步，引领行业变革。