122 天打造的奇迹：深入探访 xAI 的 10 万块 GPU 超级 AI 计算机集群

2,174 0 0

文章摘要

xAI Colossus超级计算机集群位于孟菲斯，由马斯克的xAI公司建造，拥有10万块NVIDIA H100 GPU，以其庞大的规模和惊人的建设速度而闻名。该集群仅用122天建成，展示了其内部结构和运作方式。超微电脑（Supermicro）赞助了这次参观活动，因为这是今年涉及的最昂贵项目之一。部分内容因构建全球最大人工智能集群的敏感性而进行了模糊处理。

Colossus的基本构建模块是超微液冷机架，每个机架配备八台4U服务器，每台服务器搭载八块NVIDIA H100 GPU，每个机架总共有64块GPU。这些机架按每八个机架一组，每组512块GPU，并配备网络设施，实现小型集群的部署。xAI采用的是超微4U通用GPU系统，代表了市场上最先进的人工智能服务器，以其液冷技术和出众的可维护性领先。

超微4U通用GPU系统的液冷技术、可维护性和液冷设计使其成为行业领先的下一代设计。系统安装在无需从机架中移除即可进行维护的托盘上，1U机架的歧管设计有助于引入冷却液和排出热液。快速断开装置使得液冷系统可以迅速移除，部件可以单手轻松拆卸和安装。

在网络方面，采用400GbE连接光纤，每个系统都有九条这样的链接，每个GPU计算服务器能够提供大约3.6Tbps的带宽。网络技术栈中集成了一些先进的技术，确保数据准确无误地传输到目的地，并有效规避集群中的潜在瓶颈。

在存储方面，几乎所有存储服务器都采用了超微的产品。大型人工智能集群已经从传统的磁盘存储转向了闪存技术，因为这样不仅大幅降低了能耗，还带来了更高的性能和存储密度。

在电力和供水设施方面，这里有巨大的水管，里面流着冷却水和温水。冷水被引入设施，并在每个机架中通过CDU进行循环。热量从GPU和后门热交换器循环传递到CDU处的设施水循环。随后，较暖的水被输送至设施外的冷却塔。在电力方面，孟菲斯系统建造期间的场景颇为壮观，团队正在安装巨大的电缆。在设施外部，看到了装有特斯拉Megapack的集装箱，以缓冲功率波动，确保整个设施的稳定性和可靠性。

这个项目能够得以实现，完全依赖于一群专家共同怀揣着以空前速度建造庞大AI集群的宏伟愿景。许多极具智慧的人才正在投入巨额资金和时间，以尽可能快的速度实现这一宏伟目标。