Meta公布Llama 3训练集群细节！储备60万块H100迎接AGI

AIGC动态2年前 (2024)发布 AIera

2,172 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 Meta、H100、AI、GPU、开源

新智元报道，Meta公布了其训练Llama 3的H100集群细节，展示了其在AI领域的强大实力。Meta计划到2024年底拥有35万个英伟达H100 GPU，并在未来将算力储备提升至60万个H100。Meta还公布了其构建的24576个H100 GPU集群，用于训练Llama 3的详细信息。该集群采用RoCEv2/Infiniband网络、基于Tectonic/Hammerspace的存储系统，并使用Stock PyTorch和优化的NCCL。

Meta的H100集群在高性能网络结构和关键存储决策上进行了优化，支持更大、更复杂的模型。集群采用Meta设计的Grand Teton计算平台，以及与Hammerspace合作开发的并行网络文件系统。Meta的存储部署基于YV3 Sierra Point服务器平台，并升级了高容量E1.S SSD。

为了提高性能和易用性，Meta对内部作业调度程序进行了优化，并与英伟达集体通信库（NCCL）合作改进网络路由策略。此外，Meta正在开发调试工具，以揭示分布式训练的细节，并持续改进PyTorch框架。

Meta始终致力于开源AI创新，作为OCP的创始成员，支持开放式硬件创新，并是PyTorch的最大贡献者。Meta还启动了开放创新人工智能研究社区和人工智能联盟（AI Alliance），推动负责任的AI创新。Meta AI基础设施的未来将包括持续评估和改进基础设施各个方面，以支持快速发展的新模式和研究。

原文信息

【原文链接】 阅读原文
【阅读预估】 2934 / 12分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。