文章摘要
【关 键 词】 MoE模型、开源SOTA、成本效益、推理优化、混合精度
DeepSeek V3,一个参数量为671B的MoE模型,已全面开源。该模型在14.8T高质量token上进行了预训练,激活37B参数,并在多项测评中达到开源SOTA,超越了Llama 3.1 405B,与GPT-4o、Claude 3.5 Sonnet等顶尖模型相媲美。DeepSeek V3的训练成本显著低于Llama 3 405B,仅用了不到280万个GPU小时,成本为557.6万美元,而Llama 2 7B的训练成本就高达76万美元。OpenAI创始成员Karpathy和Meta科学家田渊栋均对DeepSeek V3的效率和性能表示赞赏。
DeepSeek V3的特点包括超越其他开源模型的评测跑分,以及与顶尖闭源模型相竞争的实际响应速度,每秒能生成60个tokens,提升了3倍。API价格极具竞争力,每百万输入tokens价格为0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens为8元,远低于Claude 3.5 Sonnet。此外,DeepSeek V3还提供了45天的优惠价格体验期,进一步降低使用成本。
官方开源了原生FP8权重,并提供了从FP8到BF16的转换脚本。SGLang和LMDeploy支持FP8推理,而TensorRT-LLM和MindIE支持BF16推理。用户可以通过官网与DeepSeek V3对话,API也已更新,无需改动接口配置。知名AI博主AK证实,只需几行代码即可将DeepSeek V3部署到Gradio。
DeepSeek V3在实际测试中表现出色,完全答对了首位全职提示词工程师Riley Goodside的新题,而其他模型回答各异。网友Tom表示,DeepSeek V3无需详细解释就能理解整个项目。DeepSeek V3还正确回答了数草莓中的“r”和“9.9和9.11哪个大”的问题。尽管DeepSeek V3不支持多模态输入输出,但其预训练成本低,仅用了不到2个月和600万美元。
DeepSeek V3的预训练成本经济,得益于算法、框架和硬件的协同优化。预训练每万亿token仅需要18万GPU小时,官方2048卡集群上3.7天就能完成训练。总训练成本为278.8万GPU小时,假设GPU租赁价格为每GPU小时2美元,成本为557.6万美元。DeepSeek V3采用了创新的负载均衡策略和训练目标,以及多Token预测目标(MTP),提高了模型性能并加速了推理。预训练采用了FP8混合精度训练框架,验证了FP8训练在极大规模模型上的可行性。后训练方面,DeepSeek V3引入了推理能力从长思维链模型蒸馏到标准模型的方法,提高了推理性能。
贾扬清分享了与DeepSeek团队的早年相处细节,强调了团队的专业知识和成就。Imsys匿名竞技场也提前预热,邀请用户用最难的提示考验DeepSeek V3。
原文和模型
【原文链接】 阅读原文 [ 2280字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★