Meta公布Llama 3训练集群细节!储备60万块H100迎接AGI

AIGC动态4个月前发布 AIera
314 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

Meta公布Llama 3训练集群细节!储备60万块H100迎接AGI
 

文章摘要


【关 键 词】 MetaH100AIGPU开源

新智元报道Meta公布了其训练Llama 3H100集群细节,展示了其在AI领域的强大实力。Meta计划到2024年底拥有35万个英伟达H100 GPU,并在未来将算力储备提升至60万个H100。Meta还公布了其构建的24576个H100 GPU集群,用于训练Llama 3的详细信息。该集群采用RoCEv2/Infiniband网络、基于Tectonic/Hammerspace的存储系统,并使用Stock PyTorch和优化的NCCL

Meta的H100集群在高性能网络结构和关键存储决策上进行了优化,支持更大、更复杂的模型。集群采用Meta设计的Grand Teton计算平台,以及与Hammerspace合作开发的并行网络文件系统。Meta的存储部署基于YV3 Sierra Point服务器平台,并升级了高容量E1.S SSD

为了提高性能和易用性,Meta对内部作业调度程序进行了优化,并与英伟达集体通信库(NCCL)合作改进网络路由策略。此外,Meta正在开发调试工具,以揭示分布式训练的细节,并持续改进PyTorch框架

Meta始终致力于开源AI创新,作为OCP的创始成员,支持开放式硬件创新,并是PyTorch的最大贡献者。Meta还启动了开放创新人工智能研究社区和人工智能联盟(AI Alliance),推动负责任的AI创新。Meta AI基础设施的未来将包括持续评估和改进基础设施各个方面,以支持快速发展的新模式和研究。

原文信息


【原文链接】 阅读原文
【阅读预估】 2934 / 12分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...