专为训练Llama 3，Meta 4.9万张H100集群细节公布

AIGC动态2年前 (2024)发布 almosthuman2014

2,143 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

文章摘要

这篇文章报道了Meta公司推出的两个24k GPU集群，共计49152个H100 GPU，作为对人工智能领域的重大投资。Meta表示他们致力于开放计算和开源，并将使用这些算力集群来训练Llama 3。该公司的长期愿景是构建开放且负责任的通用人工智能，以让每个人都能广泛使用并从中受益。新集群建立在先前AI研究超级集群的成功基础上，旨在支持更大、更复杂的人工智能模型。在网络方面，Meta建立了采用RoCE协议和NVIDIA Quantum2 InfiniBand结构的高性能网络，以支持大规模训练。在计算方面，Meta使用Grand Teton构建了两个集群，以实现更好的整体性能和灵活性。存储方面，Meta采用了Tectonic分布式存储解决方案和Hammerspace合作开发的并行网络文件系统，以满足AI集群的数据需求。在性能方面，Meta通过优化网络路由策略和与团队合作适应新的基础设施，实现了大型集群的高性能。他们还在构建工具以帮助识别大规模训练中的问题，并提高可调试性。整体而言，Meta公司致力于推动人工智能领域的发展，并不断优化其基础设施以支持更复杂的AI模型。