训练一次经历 419 次意外故障！英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场！

AIGC动态1年前 (2024)发布 ai-front

2,689 0 0

训练一次经历 419 次意外故障！英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场！

文章摘要

【关键词】 Llama 3 模型、GPU故障、自动化维护、NCCLX优化、数据中心电力

Meta的研究报告详细描述了在训练Llama 3 405B参数模型时所面临的重大挑战。该模型在16384个Nvidia H100 GPU的集群上运行，平均每三小时发生一次故障，54天内共经历419次意外故障。其中，58.7%的意外中断源于GPU，包括NVLink和HBM3内存故障。尽管存在问题，Llama 3团队在自动化集群维护的支持下，实现了超过90%的有效训练时间。

在54天的预训练期间，共有466次工作中断，其中47次是计划内中断，如自动化维护，而419次是意外中断，主要源于硬件问题。除了GPU问题外，其余41.3%的意外中断由软件错误、网络电缆和网络适配器混合造成。值得注意的是，在此期间只有两个CPU出现故障。

Llama 3 405B模型训练团队还面临数以万计的GPU同时发生功耗变化的挑战，这给数据中心的电网带来压力。Meta必须确保其数据中心有足够的电力，以维护405B模型及未来更大规模Llama模型的正常运转。

为了提高效率，Meta开发了多种工具和优化策略，包括减少任务启动和检查点时间、广泛使用PyTorch内置的NCCL飞行记录器，以及识别滞后的GPU。NCCLX在故障检测和定位方面发挥了至关重要的作用，尤其是对于NVLink和RoCE相关问题。通过与PyTorch的紧密协同设计，NCCLX提高了故障检测和定位的速度和准确性。

Meta还开发了用于优先处理来自选定进程组的潜在问题通信的工具，有效检测并及时解决落后者，确保将速度减慢到最低，保持整体训练效率。此外，环境因素对大规模训练性能的影响也值得关注。对于Llama 3 405B，Meta注意到一天中会有1-2%的吞吐量变化，这种波动是因为中午较高的温度影响了GPU的动态电压和频率调整。

最后，考虑到一个包含16384个H100 GPU的集群在54天内经历了419次意外故障，我们可以预见，xAI配备100000个H100 GPU的孟菲斯超级计算机集群可能会面临指数级更高的故障率，给其未来的AI训练带来更大的挑战。埃隆·马斯克最近在社交平台上吹嘘自己启动了“世界上最强大的人工智能训练集群”，并计划在今年12月之前创建“世界上所有指标最强大的人工智能”。孟菲斯超级计算机集群已经开始进行训练，采用了液冷散热和单一的RDMA网络互连架构。