英伟达发布GB200 NVL72,将万亿参数大模型推理效率提升30倍

AIGC动态8个月前发布 AIGCOPEN
883 0 0

模型信息


【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

英伟达发布GB200 NVL72,将万亿参数大模型推理效率提升30倍
 

文章摘要


【关 键 词】 英伟达GB200NVL72AIGPU

3月19日,英伟达在“2024GTC”大会上发布了新一代AI专用GPU GB200 NVL72,专门面向万亿参数大模型训练和推理。这款产品在训练MoE(专家混合模型)时,能够在数千个GPU上进行训练,需要超高的并行计算、快速存储和高性能通信。相比上一代的H100 GPU,GB200 NVL72可以提升训练效率4倍,数据处理效率6倍,实时推理效率30倍。其核心架构是NVIDIA GB200 Grace Blackwell Superchip,通过NVLink-Chip-to-Chip(C2C)接口连接两个高性能的NVIDIA Blackwell Tensor Core GPU和NVIDIA Grace CPU,提供900GB/s的双向带宽,支持统一内存空间访问,简化编程,满足万亿参数的多模态大模型需求。GB200的计算托盘基于新的NVIDIA MGX设计,包含两个Grace CPU和四个Blackwell GPU,提供80petaflops的AI性能和1.7TB的快速内存。

GB200支持在NVLink域中使用3672个GPU,每个机架基于MGX参考设计和NVLink交换系统承载18个计算节点。GB200 NVL72配置为一个机架内有72个GPU和18个双GB200计算节点,或者在两个机架内配置72个GPU和18个单个GB200计算节点。采用了液冷系统设计,能够降低成本和能耗。英伟达的SerDes推动了GPU到GPU通信的创新,第五代NVLink速度为160GB/s,支持多GPU通信,NVIDIA GB200 NVL72使用了第五代NVLink,可连接多达576个GPU,总带宽超过1PB/s,快速内存可达240TB

在性能展示方面,GB200 NVL72在大模型训练和推理方面表现出超强性能,通过32k GB200 NVL72训练1.8万亿参数的GPT-MoE模型性能提升4倍,整体效率提升30倍。在数据处理方面,GB200 NVL72引入了硬件解压缩引擎,支持多种压缩格式,提供高达800GB/s的性能,比CPU和H100快速度分别快18倍6倍,加快了数据库查询的整个过程,降低了数据存储和处理成本。GB200 NVL72凭借高内存带宽和高速NVlink芯片到芯片,加速了数据处理过程,使组织能够快速获得数据见解。

原文信息


【原文链接】 阅读原文
【阅读预估】 1048 / 5分钟
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

© 版权声明

相关文章

暂无评论

暂无评论...