文章摘要
【关 键 词】 人工智能、DeepSeek、低成本训练、高性能、市场影响
DeepSeek,这款来自中国的生成式人工智能系统,在全球范围内迅速崛起,尤其在西方世界引起了广泛关注。自发布以来,DeepSeek在短短18天内下载量达到1600万次,是竞争对手OpenAI的ChatGPT同期下载量的两倍,显示出其强大的市场吸引力。根据市场分析公司Appfigures的数据,DeepSeek的应用程序自1月26日首次登顶苹果App Store后,一直保持全球领先地位,迅速攀升至140个国家的苹果App Store下载排行榜首位,并在美国的Android Play Store中同样占据榜首位置。
DeepSeek的成功不仅在于其出色的性能,还在于其低训练成本。2024年8月,DeepSeek团队发表了一篇论文,描述了他们创建的一种新型负载均衡器,用于将其混合专家(MoE)基础模型的元素相互连接。他们提出了无损平衡(Loss-Free Balancing),这是一种无辅助损失的负载平衡策略,通过在top-K路由决策之前对每个专家的路由分数应用专家偏见,动态更新偏见以保持专家负载的均衡分布,从而提升了模型性能的上限。
DeepSeek-V3模型的技术架构在《DeepSeek-V3 Technical Report》中得到了深入解读。DeepSeek-V3采用多头潜在注意力(MLA)进行高效推理和DeepSeekMoE以实现经济高效的训练。为了实现高效训练,DeepSeek团队的解决方案支持FP8混合精度训练,并对训练框架进行了全面优化。通过对FP8计算和存储的支持,DeepSeek团队实现了加速训练和减少GPU内存使用。他们设计了DualPipe算法来实现高效的流水线并行,该算法具有更少的流水线气泡,并通过计算-通信重叠隐藏了训练过程中的大部分通信。
DeepSeek团队还开发了高效的跨节点全对全通信内核,以充分利用InfiniBand(IB)和NVLink带宽。公司还对内存占用进行了精心优化,使得无需使用昂贵的张量并行即可训练DeepSeek-V3。通过优化算法、框架和硬件的协同设计,DeepSeek团队实现了高训练效率。在预训练阶段,每万亿个token上训练DeepSeek-V3只需要180K H800 GPU小时,即在其拥有2048个H800 GPU的集群上只需要3.7天。因此,公司的预训练阶段在不到两个月的时间内完成,花费了2664K GPU小时。加上上下文长度扩展的119K GPU小时和后训练的5K GPU小时,DeepSeek-V3完整训练仅花费278.8万GPU小时。假设H800 GPU的租赁价格为每小时2美元,则代表着其总训练成本仅为557.6万美元。
DeepSeek的成功对英伟达芯片市场产生了影响。DeepSeek的低成本训练方式引起了市场对英伟达芯片的担忧,导致英伟达股价大跌。DeepSeek使用的是英伟达H800 SXM5版本的GPU,这种GPU卡的FP64浮点性能上限为1万亿次浮点运算,与世界上大多数公司可以购买的80GB版本的H100卡相同。DeepSeek的成功挑战了人们认为更大的模型和更强大的计算能力能够带来更好性能的信念,对英伟达由GPU驱动的增长战略构成了威胁。
DeepSeek的AI突破绕过了英伟达的CUDA不成盒,而是使用了类似汇编的PTX编程,这从某种程度上加大了大家对英伟达的担忧。DeepSeek在训练V3模型时,重新配置了英伟达的H800 GPU,在132个流式多处理器中,分配了20个用于服务器到服务器通信,可能用于压缩和解压缩数据,以克服处理器的连接限制并加快交易速度。为了最大限度地提高性能,DeepSeek还实施了高级管道算法,可能是通过进行超精细的线程/warp级别调整来实现的。
尽管DeepSeek的进入给整个人工智能生态系统增加了不确定性,但行业资深人士认为,像人工智能这样的应用程序可以利用它们能够访问的所有计算能力。DeepSeek的突破是一种将人工智能添加到大众市场中大量廉价设备中的方法。自DeepSeek V3和R1发布以来,H100的AWS GPU价格在许多地区都有所上涨,类似的H200也更难找到。V3推出后,H100的价格暴涨,因为GPU的货币化率开始大大提高。以更低的价格获得更多的智能意味着更多的需求。这与前几个月低迷的H100现货价格相比发生了重大转变。
原文和模型
【原文链接】 阅读原文 [ 4837字 | 20分钟 ]
【原文作者】 半导体行业观察
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★