DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明

DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明

 

文章摘要


【关 键 词】 开源项目推理系统专家并行性能优化成本利润

在DeepSeek开源周的第六天,官方意外发布了DeepSeek-V3/R1推理系统的技术细节,展示了其优化大规模语言模型推理效率的核心方法。该系统通过跨节点专家并行(EP)策略扩展批量处理规模,配合计算-通信重叠技术与负载平衡机制,显著提升了吞吐量和延迟表现。每个H800节点实现了73.7k/14.8k个每秒输入/输出token的吞吐量,同时披露的理论成本利润率高达545%,引发行业广泛关注。

为实现高效推理,系统设计基于三大核心原则:通过EP策略将256个专家分布到多节点GPU,减少单个设备内存压力;采用dual-batch划分技术将请求拆分为微批次,在预填充阶段实现通信与计算的流水线重叠;在解码阶段通过五阶段流水线架构平衡各环节执行时间差。这种设计使得预填充阶段通信延迟被计算过程完全隐藏,解码阶段注意力层细粒度拆分保障了处理连续性

负载平衡机制包含三个维度:预填充阶段平衡GPU间核心注意力计算与输入token分布,解码阶段优化KV缓存使用率与请求分配,专家并行层面动态调整高负载专家的分布。这些措施将278个H800节点的集群利用率提升至日均81.5%,通过昼夜资源调度模式,白天高峰时段满负荷运行推理服务,夜间释放部分节点用于研发训练。

公布的24小时运营数据显示,系统处理了6080亿输入token和1680亿输出token,其中56.3%的输入token命中磁盘KV缓存。按照R1定价模型计算,理论单日收入可达56.2万美元,较8.7万美元运营成本显示出545%利润率。实际收入因V3定价较低、部分服务免费及夜间折扣等因素显著低于理论值,但技术方案验证了MoE模型商业化的可行性。

该系统的突破性在于将专家并行扩展到144节点规模,通过预填充-解码阶段差异化的并行策略(EP32/DP32到EP144/DP144)应对不同计算特征。混合精度方案在矩阵乘法采用FP8格式,MLA计算保留BF16精度,兼顾效率与精度。社区关注焦点集中于其开源的通信库DeepEP和负载平衡算法,这些基础设施级创新为行业提供了可复用的优化范式。

DeepSeek通过本次披露展现了大型MoE模型落地应用的完整技术路径,从分布式推理架构、计算通信优化到动态资源调度,形成端到端的解决方案。73.7k/14.8k的token处理速度与545%理论利润率两个关键指标,揭示了稀疏化模型在成本控制方面的巨大潜力。随着开源周进入最后一天,行业期待其压轴发布进一步推动AGI基础设施的技术演进。

原文和模型


【原文链接】 阅读原文 [ 2496字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...