标签:MegaScale

超越英伟达!字节跳动MegaScale如何实现大规模GPU的高效利用?

在2024年2月,字帖跳动发布了一篇关于大语言模型训练框架的论文《MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs》。MegaScale...

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

字节跳动与北京大学合作的一篇新论文揭示了AI基础设施的重要性,并介绍了字节搭建的万卡集群,该集群能在1.75天内完成GPT-3规模模型(175B)的训练。字节提出...