标签:存储性能

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

随着大模型迭代速度的加快和训练集群规模的增大,软硬件故障已成为提高训练效率的瓶颈。为此,字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint,...