49152 个GPU!Meta最新算力集群曝光,扎克伯格:算力,算力,还是 Meta 的算力

AIGC动态9个月前发布 Si-Planet
1,105 0 0

模型信息


【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

49152 个GPU!Meta最新算力集群曝光,扎克伯格:算力,算力,还是 Meta 的算力
 

文章摘要


【关 键 词】 GPU集群人工智能硬件优化PyTorch升级开放创新

Meta最近披露了两个新的GPU集群,用于训练下一代生成式人工智能模型,包括即将推出的Llama 3和其他领域的人工智能研究与开发。这两个集群在硬件、网络、存储、设计、性能和软件等方面进行了定制优化,总共拥有49152个GPU,每个集群都装配了H100 GPU。Meta表示将使用这些新的GPU集群来微调现有的人工智能系统,并训练更强大的新系统,包括Llama 3。此外,Meta还透露正在对PyTorch人工智能框架进行升级,为支持更大规模的GPU训练需求做准备。

这些新的GPU集群是Meta AGI路线图的一部分,目标是到2024年底,基础设施将包括350,000个NVIDIA H100 GPU,计算能力相当于将近600,000个H100 GPU。为了保持在人工智能领域的领先地位,Meta需要大量投资于基础设施,据市调机构Omdia发布的报告,Meta在2023年购买了超过15万块NVIDIA GPU,2024年预计将购买超过35万块英伟达H100 GPU。

关于这两个GPU集群的具体架构细节,尽管GPU数量相同,但采用了不同的架构设计。其中一个集群采用了RoCE网络结构解决方案,另一个使用了Nvidia的Quantum2 InfiniBand网络架构技术。这两个集群均采用Meta的开源GPU硬件平台Grand Teton构建,存储方面使用了自主开发的“Tectonic”分布式闪存存储解决方案,并与Hammerspace合作部署并行网络文件系统,提高了开发体验。

Meta还表示将继续支持在人工智能硬件技术栈方面的开放创新,强调了对开放式计算和开源技术的重视。新的集群基于Grand TetonOpenRackPyTorch等平台构建而成。整体而言,Meta在不断推进人工智能技术的发展,并致力于构建更强大的系统,如Llama 3,以保持在AI领域的领先地位。

原文信息


【原文链接】 阅读原文
【阅读预估】 1515 / 7分钟
【原文作者】 硅星人Pro
【作者简介】 硅(Si)是创造未来的基础,欢迎来到这个星球。

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...