AMD，杀疯了

AIGC动态1年前 (2024)发布 admin

1,962 0 0

文章摘要

【关键词】 超级计算机、Top500、AMD GPU、HPC性能、技术创新

在亚特兰大举行的SC24会议上，11月份的Top500 超级计算机排名相较于5月份在德国汉堡ISC24会议上发布的6月份名单有了显著变化。最引人注目的是，惠普企业公司打造的、采用AMD混合CPU-GPU计算引擎的“El Capitan”系统投入运行，并成为排行榜上的新霸主。El Capitan的峰值理论性能为2,746.4 petaflops，持续性能为1,742 petaflops，计算效率为63.4%。这一性能明显高于预期的2.3 exaflops到2.5 exaflops。El Capitan的测试包括了高性能Linpack测试，这是自1993年以来用于对超级计算机进行排名的测试。

El Capitan使用了43,808台AMD“Antares-A”Instinct MI300A设备，这些设备在劳伦斯利弗莫尔国家实验室进行了测试。MI300A设备于2023年12月发布，包含三个芯片组，总共有二十四个“Genoa”Epyc内核和六个Antares GPU流式多处理器芯片组，运行频率为1.8 GHz。所有MI300A计算引擎都通过HPE的“Rosetta”Slingshot 11以太网互连相互连接。在测试的El Capitan部分中，GPU芯片组上有105万个Genoa内核和略低于1000万个流式多处理器，这需要管理大量的并发。

在Top500榜单中，AMD在增加HPC基础容量方面成为最大赢家。榜单中有61台新机器，其中4台新的Grace-Hopper系统，规模相当适中，仅占新机器总峰值性能5,211.6 petaflops的3.8%。有25台新机器在主机上安装了Intel Xeon CPU，并以Nvidia GPU作为卸载引擎，这些机器合计拥有969.6 petaflops的计算能力，占榜单上新计算总量的18.6%。此外，还有11台机器拥有支持Nvidia GPU加速器的AMD Epyc CPU主机，峰值性能总计为247.7 petaflops。合并后的Nvidia GPU机器占2024年11月Top500榜单新增总计算量的39%。

El Capitan及其四款基于MI300A混合计算引擎的小型同类产品在FP64性能上达到3,134.6千万亿次浮点运算，占总计算量的60.1%，是当前Top500榜单中首次亮相的机型。这在很大程度上要归功于意大利Eni SpA安装的HPC6机器，它基本上是安装在美国橡树岭国家实验室的“Frontier”超级计算机的小型克隆版，11月榜单中又增加了619.3千万亿次浮点运算，这是两台基于AMD CPU和AMD MI250X GPU的机器的功力。

AMD GPU为2024年11月的排名贡献了72.1%的新增性能。在所有500台机器中，加速系统占2024年11月列表中机器总数的41.8%，总计17,705千万亿次浮点运算的83.4%，以及总核心数1.286亿个加上流式多处理器的55.4%。

突破百亿亿次级障碍比很多人想象的要困难得多，这主要是由于预算和功耗的限制，而不是任何潜在的技术问题。中国的百亿亿次级机器——“天河三号”和“海洋之光”——尚未向Top500组织者提交正式的HPL性能结果，因此没有排名，但它们表明，如果您不关心使用了多少电力或机器的成本，那么几年前在现场使用百亿亿次级机器不仅是可能的，而且已经做到了。

要进入Top500，需要一台在HPL基准测试中至少有2.31千万亿次浮点运算的机器。进入Top100的机器是12.8千万亿次浮点运算。名单上的总体HPL性能为11.72百亿亿次浮点运算，高于2024年6月的8.21百亿亿次浮点运算、2023年11月的7.01百亿亿次浮点运算和2023年6月的5.24百亿亿次浮点运算。这些大型机器正在提高总体性能，但较小的HPC中心增加容量的速度不够快，无法在名单上的五百台机器上每两年翻一番。这可能与云端HPC的兴起相吻合，也可能不相吻合。如果没有来自云构建者的一些数据，很难说。

最后，TensorWave宣布正在开发基于AMD Instinct MI300X、MI325X和MI350X加速器的全球最大GPU集群，旨在打破NVIDIA的垄断，推动AMD的AI产品组合以吸引市场兴趣。