文章摘要
【关 键 词】 Llama 3 模型、GPU故障、自动化维护、NCCLX优化、数据中心电力
Meta的研究报告详细描述了在训练Llama 3 405B参数模型时所面临的重大挑战。该模型在16384个Nvidia H100 GPU的集群上运行,平均每三小时发生一次故障,54天内共经历419次意外故障。其中,58.7%的意外中断源于GPU,包括NVLink和HBM3内存故障。尽管存在问题,Llama 3团队在自动化集群维护的支持下,实现了超过90%的有效训练时间。
在54天的预训练期间,共有466次工作中断,其中47次是计划内中断,如自动化维护,而419次是意外中断,主要源于硬件问题。除了GPU问题外,其余41.3%的意外中断由软件错误、网络电缆和网络适配器混合造成。值得注意的是,在此期间只有两个CPU出现故障。
Llama 3 405B模型训练团队还面临数以万计的GPU同时发生功耗变化的挑战,这给数据中心的电网带来压力。Meta必须确保其数据中心有足够的电力,以维护405B模型及未来更大规模Llama模型的正常运转。
为了提高效率,Meta开发了多种工具和优化策略,包括减少任务启动和检查点时间、广泛使用PyTorch内置的NCCL飞行记录器,以及识别滞后的GPU。NCCLX在故障检测和定位方面发挥了至关重要的作用,尤其是对于NVLink和RoCE相关问题。通过与PyTorch的紧密协同设计,NCCLX提高了故障检测和定位的速度和准确性。
Meta还开发了用于优先处理来自选定进程组的潜在问题通信的工具,有效检测并及时解决落后者,确保将速度减慢到最低,保持整体训练效率。此外,环境因素对大规模训练性能的影响也值得关注。对于Llama 3 405B,Meta注意到一天中会有1-2%的吞吐量变化,这种波动是因为中午较高的温度影响了GPU的动态电压和频率调整。
最后,考虑到一个包含16384个H100 GPU的集群在54天内经历了419次意外故障,我们可以预见,xAI配备100000个H100 GPU的孟菲斯超级计算机集群可能会面临指数级更高的故障率,给其未来的AI训练带来更大的挑战。埃隆·马斯克最近在社交平台上吹嘘自己启动了“世界上最强大的人工智能训练集群”,并计划在今年12月之前创建“世界上所有指标最强大的人工智能”。孟菲斯超级计算机集群已经开始进行训练,采用了液冷散热和单一的RDMA网络互连架构。
原文和模型
【原文链接】 阅读原文 [ 1806字 | 8分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆