为什么 DeepSeek 大规模部署很便宜,本地很贵

AIGC动态9小时前发布 ai-front
100 0 0
为什么 DeepSeek 大规模部署很便宜,本地很贵

 

文章摘要


【关 键 词】 AI模型GPU效率批处理推理延迟权衡专家混合

AI模型的推理服务在吞吐量和延迟之间存在权衡,这种权衡的核心在于批处理大小的选择。GPU擅长执行大型矩阵乘法(GEMMs),因此同时计算一批补全比逐个处理token更高效。批处理推理的实现方式是将多个用户请求的token堆叠成一个矩阵,通过一次GEMM完成计算,随后分割结果并返回给用户。批处理大小直接影响延迟和吞吐量:较小的批处理降低延迟但牺牲吞吐量,而较大的批处理提高吞吐量但增加延迟。

专家混合模型(如DeepSeek-V3)因其架构特性需要更大的批处理规模才能实现高效运行。这类模型包含多个独立的前馈权重块(专家),路由层为每个token选择子集。由于专家数量较多,GPU被迫执行大量小型矩阵乘法,导致吞吐量低下。只有通过大批次处理,才能让每个专家获得足够的token以饱和计算资源,从而提升效率。

大型模型的管道化处理进一步凸显了批处理的重要性。模型通常由多个transformer层组成,需要通过GPU管道顺序处理。较短的收集窗口可能导致“管道气泡”,即部分GPU因等待输入或输出而闲置。较大的批处理窗口能够减少预热和排水时间,避免管道气泡,但同时也增加了用户等待时间。

注意力机制的批处理限制是另一个关键因素。注意力操作只能为同一步骤的token批量处理,这迫使调度器以短“tick”运行。由于不同用户的token序列长度可能不同,注意力步骤的批处理需要相同形状的KV缓存矩阵,这限制了连续批处理的灵活性。尽管现代推理栈采用动态批处理策略,但核心的吞吐量与延迟权衡依然存在。

DeepSeek-V3等模型在本地运行时效率低下的原因在于缺乏足够的并发请求。个人使用场景通常只有一个用户生成少量token,无法形成足够大的批处理规模,导致GPU利用率低下。相比之下,OpenAI和Anthropic的模型可能通过更高效的架构或优化技术实现了低延迟响应。这表明,模型的设计选择和服务部署策略对实际性能具有显著影响。

原文和模型


【原文链接】 阅读原文 [ 3597字 | 15分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...