为什么 DeepSeek 大规模部署很便宜，本地很贵

100 0 0

文章摘要

AI模型的推理服务在吞吐量和延迟之间存在权衡，这种权衡的核心在于批处理大小的选择。GPU擅长执行大型矩阵乘法（GEMMs），因此同时计算一批补全比逐个处理token更高效。批处理推理的实现方式是将多个用户请求的token堆叠成一个矩阵，通过一次GEMM完成计算，随后分割结果并返回给用户。批处理大小直接影响延迟和吞吐量：较小的批处理降低延迟但牺牲吞吐量，而较大的批处理提高吞吐量但增加延迟。

专家混合模型（如DeepSeek-V3）因其架构特性需要更大的批处理规模才能实现高效运行。这类模型包含多个独立的前馈权重块（专家），路由层为每个token选择子集。由于专家数量较多，GPU被迫执行大量小型矩阵乘法，导致吞吐量低下。只有通过大批次处理，才能让每个专家获得足够的token以饱和计算资源，从而提升效率。

大型模型的管道化处理进一步凸显了批处理的重要性。模型通常由多个transformer层组成，需要通过GPU管道顺序处理。较短的收集窗口可能导致“管道气泡”，即部分GPU因等待输入或输出而闲置。较大的批处理窗口能够减少预热和排水时间，避免管道气泡，但同时也增加了用户等待时间。

注意力机制的批处理限制是另一个关键因素。注意力操作只能为同一步骤的token批量处理，这迫使调度器以短“tick”运行。由于不同用户的token序列长度可能不同，注意力步骤的批处理需要相同形状的KV缓存矩阵，这限制了连续批处理的灵活性。尽管现代推理栈采用动态批处理策略，但核心的吞吐量与延迟权衡依然存在。

DeepSeek-V3等模型在本地运行时效率低下的原因在于缺乏足够的并发请求。个人使用场景通常只有一个用户生成少量token，无法形成足够大的批处理规模，导致GPU利用率低下。相比之下，OpenAI和Anthropic的模型可能通过更高效的架构或优化技术实现了低延迟响应。这表明，模型的设计选择和服务部署策略对实际性能具有显著影响。