49152 个GPU！Meta最新算力集群曝光，扎克伯格：算力，算力，还是 Meta 的算力

AIGC动态1年前 (2024)发布 Si-Planet

2,693 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

文章摘要

【关键词】 GPU集群、人工智能、硬件优化、PyTorch升级、开放创新

Meta最近披露了两个新的GPU集群，用于训练下一代生成式人工智能模型，包括即将推出的Llama 3和其他领域的人工智能研究与开发。这两个集群在硬件、网络、存储、设计、性能和软件等方面进行了定制优化，总共拥有49152个GPU，每个集群都装配了H100 GPU。Meta表示将使用这些新的GPU集群来微调现有的人工智能系统，并训练更强大的新系统，包括Llama 3。此外，Meta还透露正在对PyTorch人工智能框架进行升级，为支持更大规模的GPU训练需求做准备。

这些新的GPU集群是Meta AGI路线图的一部分，目标是到2024年底，基础设施将包括350,000个NVIDIA H100 GPU，计算能力相当于将近600,000个H100 GPU。为了保持在人工智能领域的领先地位，Meta需要大量投资于基础设施，据市调机构Omdia发布的报告，Meta在2023年购买了超过15万块NVIDIA GPU，2024年预计将购买超过35万块英伟达H100 GPU。

关于这两个GPU集群的具体架构细节，尽管GPU数量相同，但采用了不同的架构设计。其中一个集群采用了RoCE网络结构解决方案，另一个使用了Nvidia的Quantum2 InfiniBand网络架构技术。这两个集群均采用Meta的开源GPU硬件平台Grand Teton构建，存储方面使用了自主开发的“Tectonic”分布式闪存存储解决方案，并与Hammerspace合作部署并行网络文件系统，提高了开发体验。

Meta还表示将继续支持在人工智能硬件技术栈方面的开放创新，强调了对开放式计算和开源技术的重视。新的集群基于Grand Teton、OpenRack和PyTorch等平台构建而成。整体而言，Meta在不断推进人工智能技术的发展，并致力于构建更强大的系统，如Llama 3，以保持在AI领域的领先地位。