模型信息
【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 GPU集群、人工智能、硬件优化、PyTorch升级、开放创新
Meta最近披露了两个新的GPU集群,用于训练下一代生成式人工智能模型,包括即将推出的Llama 3和其他领域的人工智能研究与开发。这两个集群在硬件、网络、存储、设计、性能和软件等方面进行了定制优化,总共拥有49152个GPU,每个集群都装配了H100 GPU。Meta表示将使用这些新的GPU集群来微调现有的人工智能系统,并训练更强大的新系统,包括Llama 3。此外,Meta还透露正在对PyTorch人工智能框架进行升级,为支持更大规模的GPU训练需求做准备。
这些新的GPU集群是Meta AGI路线图的一部分,目标是到2024年底,基础设施将包括350,000个NVIDIA H100 GPU,计算能力相当于将近600,000个H100 GPU。为了保持在人工智能领域的领先地位,Meta需要大量投资于基础设施,据市调机构Omdia发布的报告,Meta在2023年购买了超过15万块NVIDIA GPU,2024年预计将购买超过35万块英伟达H100 GPU。
关于这两个GPU集群的具体架构细节,尽管GPU数量相同,但采用了不同的架构设计。其中一个集群采用了RoCE网络结构解决方案,另一个使用了Nvidia的Quantum2 InfiniBand网络架构技术。这两个集群均采用Meta的开源GPU硬件平台Grand Teton构建,存储方面使用了自主开发的“Tectonic”分布式闪存存储解决方案,并与Hammerspace合作部署并行网络文件系统,提高了开发体验。
Meta还表示将继续支持在人工智能硬件技术栈方面的开放创新,强调了对开放式计算和开源技术的重视。新的集群基于Grand Teton、OpenRack和PyTorch等平台构建而成。整体而言,Meta在不断推进人工智能技术的发展,并致力于构建更强大的系统,如Llama 3,以保持在AI领域的领先地位。
原文信息
【原文链接】 阅读原文
【阅读预估】 1515 / 7分钟
【原文作者】 硅星人Pro
【作者简介】 硅(Si)是创造未来的基础,欢迎来到这个星球。