GPU泡沫破灭前夜：2美元/小时出租，H100算力价格暴跌75%

2,007 0 0

文章摘要

AI产业的年产值被认为需超过6000亿美元才能覆盖AI基础设施的费用，如数据中心和GPU卡。尽管基础模型训练的资本支出被看作是快速贬值的资产，但对于GPU基础设施支出的评估尚未明确。大模型公司如OpenAI在训练和推理上的支出超过了收入，最近在历史上最大的风险投资轮中筹集了66亿美元，预计到2026年亏损将达到140亿美元。

NVIDIA的新一代Blackwell系列芯片已交付给OpenAI，且下一年的产品已售罄。NVIDIA CEO黄仁勋认为这可能是行业历史上最成功的产品。与此同时，AMD CEO苏姿丰推出了MI325X，AI推理芯片公司Cerebras提交了IPO申请。数十亿美元的投入可能会促进AI上层的繁荣，但也可能带来泡沫。

作者Eugene Cheah深入研究了H100市场，发现市场上的H100算力已经供过于求，导致价格从8美元/小时降至低于2美元/小时。他建议用户在需要时租用而不是购买算力。AI竞赛的简史显示，基于A100 GPU系列训练的GPT3.5和ChatGPT吸引了全球对AI的想象，并开启了AI竞赛。H100的推出引发了对更高性能和更大模型的追求，但随着时间的推移，H100的价格开始下降，导致市场出现变化。

在数据中心，一张H100 SXM GPU的设置、维护和运营成本平均为50000美元或更多。对于按需租赁，如果价格低于2.85美元/小时，投资回报率将低于股市的内部收益率（IRR），而低于1.65美元/小时则可能导致投资亏损。长期租赁（3-5年）的模式也在变化，许多基础设施提供商推动前期承诺和支付，以锁定利润。

当前H100的价值链包括硬件供应商、数据中心基础设施提供商、风险投资基金、大型公司和初创公司，以及算力转售商。开放权重模型的兴起导致市场发生根本性变化，对AI推理和微调的需求增加。这导致基础模型创建市场萎缩，小型和中型模型创建者转向微调，减少了对H100的需求。

其他因素也导致算力供应增加和训练需求减少，如大型模型创建者离开公共云平台，未使用/延迟供应的算力上线，以及更便宜的GPU替代品的出现。这些因素可能导致H100集群价格的分层，新的公共云H100集群可能面临无利可图的风险，而中型到大型模型构建者可能已经通过长期租赁榨取了算力价值。便宜的H100可能加速开放权重AI的采用浪潮，推动AI应用的发展。

最终，作者建议不要购买全新的H100，因为这样的支出很可能是亏损的，除非有特定的条件，如折扣的H100、折扣的电力，或有主权AI的需求。