文章摘要
【关 键 词】 超级计算机、AI应用、液体冷却、高性能计算、机密项目
美国能源部最新超级计算机El Capitan在加州LLNL举行了落成典礼,该超级计算机在Top500排名中位列第一。典礼结束后,作者被允许携带手机进入通常禁止电子设备的区域,近距离观察El Capitan。在典礼上,LLNL、NNSA、DoE等机构发表了演讲,HPE首席执行官Antonio Neri和AMD首席执行官Lisa Su分别讨论了El Capitan在AI领域的应用前景。
El Capitan的建设始于疫情前,其任务是支持美国的武器计划,因此系统内部情况通常保密。作者得以一窥系统内部,包括CoolIT提供的液体冷却块和AMD Instinct MI300A APU。每个El Capitan节点包含集成的芯片,涵盖CPU核心、GPU核心和高带宽内存(HBM),且每个插槽侧面没有DIMM插槽。
El Capitan安装在楼上,而非一楼,通常有一个通往数据大厅的观察窗,但作者被允许进入内部。系统旁边是排名第10的Tuolumne系统,将支持非机密科学。El Capitan的机架每个有128个计算刀片,完全采用液体冷却,系统非常安静。机架另一侧安装了HPE Slingshot互连电缆,连接DAC和光学器件,Slingshot互连侧还有蓝色和红色的液体冷却管。
El Capitan还有一个名为”Rabbit”的功能,装有18个NVMe SSD,采用液体冷却。Rabbit既可以作为独立服务器运行,拥有大量存储空间,也可以作为集群内的共享存储。作者认为Rabbit可能是设计最过度的单插槽存储服务器。
这次经历让作者有机会深入了解大型集群的幕后,尽管El Capitan的规模不到xAI Colossus集群的一半,但其预算仅为100,000多个GPU系统的一小部分。作者还有更多照片和视频需要浏览,可能会在Substack上发布更高分辨率的照片和更多细节。
原文和模型
【原文链接】 阅读原文 [ 1929字 | 8分钟 ]
【原文作者】 半导体行业观察
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆