Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
文章摘要
【关 键 词】 大模型训练、Checkpoint系统、软硬件故障、存储性能、异步张量合并
随着大模型迭代速度的加快和训练集群规模的增大,软硬件故障已成为提高训练效率的瓶颈。为此,字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint,这是一个PyTorch原生、兼容多个训练框架、支持高效读写和自动重新切分的大模型Checkpointing系统。该系统在Checkpoint保存性能上提升了529.22倍,在加载性能上提升了3.51倍,显著降低了用户的使用成本,提高了系统的易用性。
Checkpoint技术在大模型训练中面临四大挑战:现有系统设计增加额外I/O开销、Checkpoint重新切分困难、不同训练框架Checkpoint模块割裂、分布式训练系统用户面临多重困扰。ByteCheckpoint通过元数据/张量数据分离的存储架构,实现了Checkpoint管理与训练框架和并行度的解耦合。针对不规则张量切分问题,提出了异步张量合并技术,消除了频繁的同步开销。系统架构上,API层提供统一接口,Planner层生成存取方案,Execution层执行I/O任务并与Storage层交互,利用I/O优化技术实现高性能Checkpoint存取。
ByteCheckpoint在存储性能测试中,相比基线方法在各类实验场景中均取得了显著的性能提升,最高可达529.22倍。在读取性能测试中,也取得了1.55~3.37倍的性能提升。未来,团队希望实现支持超大规模GPU集群训练任务的高效Checkpointing,以及全生命周期的Checkpoint管理。
字节跳动豆包大模型团队成立于2023年,致力于开发业界最先进的AI大模型技术,成为世界一流的研究团队。团队正在持续吸引优秀人才加入,鼓励成员不断学习和成长,追求卓越。
原文和模型
【原文链接】 阅读原文 [ 3908字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆