缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群?

AIGC动态5个月前发布 ai-front
829 0 0
缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群?

 

文章摘要


【关 键 词】 高性能计算人工智能GPU需求xAI公司AI训练集群

埃隆·马斯克领导的多家公司,包括SpaceX、特斯拉、xAI和X(原Twitter),都对高性能计算(HPC)和人工智能(AI)项目有巨大的GPU需求。然而,市场上GPU的供应并不能满足这些公司的需求。马斯克在2015年参与创立了OpenAI,但在2018年因资金和治理问题离开,微软随后投资并推动OpenAI成为生成式AI的主导力量。为了与OpenAI/微软、谷歌、亚马逊云科技和Anthropic等竞争,马斯克在2023年4月成立了xAI公司,并在5月底完成了60亿美元的B轮融资,融资总额达到64亿美元。此外,马斯克从特斯拉获得了450亿美元的薪酬收益,可以用于xAI的GPU发展。

xAI公司已经开发了多个大型语言模型,包括拥有330亿参数的Grok-0、3140亿参数的Grok-1和更长上下文窗口的Grok-1.5。即将推出的Grok-2计划在2.4万个英伟达H100 GPU上训练,而Grok-3则需要10万个GPU集群。为了满足GPU需求,马斯克计划在田纳西州孟菲斯建立一个“计算超级工厂”,预计占用150兆瓦的电力。尽管目前该工厂仅分配到8兆瓦电力,但未来几个月有望增加到50兆瓦。

马斯克在推特上表示,xAI、X、英伟达和支持部门已经启动了孟菲斯超级集群训练,该集群拥有10万个液冷H100 GPU,将成为世界上最强大的AI训练集群。然而,有报道称马斯克可能无法在年底前获得全部10万个GPU,实际数量可能只有2.5万个。此外,孟菲斯超级集群的供电和存储解决方案仍然是未知数。

除了xAI,其他公司也在积极收集H100 GPU。特斯拉希望在年底前拥有3.5万到8.5万个H100 GPU,而OpenAI则租用了微软提供的相当于12万个Nvidia A100 GPU的训练集群。风险投资公司Andreesen Horowitz也在囤积超过2万个GPU,计划将其出租给AI初创公司以换取股份。

总的来说,马斯克和他的公司在GPU供应紧张的情况下,通过融资和自建超级工厂来满足其AI和HPC项目的需求。尽管面临GPU数量和电力供应的挑战,但这些项目有望推动AI技术的发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3228字 | 13分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...