把训练成本打下来99%！吊打GPT又“征服”OpenAI创始成员，DeepSeek“国产之光”实至名归？

1,215 0 0

文章摘要

中国AI初创公司DeepSeek发布了其最新人工智能模型DeepSeek-V3的首个版本，并宣布开源。该模型能够处理多种基于文本的工作负载和任务，包括编码、翻译和撰写论文等。DeepSeek-V3在内部基准测试中显示出优于其他公开和封闭AI模型的性能，特别是在编程竞赛平台Codeforces的编码竞赛中，超越了Meta的Llama 3.1 405B、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5 72B等模型。此外，DeepSeek-V3在Aider Polyglot测试中也展现了其编写新代码并整合到现有代码中的能力。

DeepSeek-V3拥有6710亿参数，通过混合专家架构激活选定参数以高效处理任务。模型代码可在GitHub上基于MIT许可获取，企业也可以通过DeepSeek Chat平台测试新模型并访问API进行商业使用。DeepSeek-V3基于多头潜在注意力（MLA）与DeepSeekMoE构建，保持了高效的训练与推理能力，并通过共享“专家”激活370亿个参数。

DeepSeek还推出了两项创新以提高模型表现：辅助无损负载均衡策略和多token预测（MTP），后者使模型训练效率提高，执行速度提升三倍，每秒可生成60个token。DeepSeek-V3在预训练期间训练了14.8T高质量多样化的token，并进行了上下文长度扩展和后训练，包括监督微调和强化学习，以确保与人类偏好一致。

在训练阶段，DeepSeek采用了FP8混合精度训练框架和DualPipe算法等硬件及算法优化方法，降低了运行成本。DeepSeek-V3的生成吐字速度从20 TPS提升至60 TPS，训练成本远低于其他大语言模型，约600万美元，而其他模型如Llama-3.1的训练投入估计超过5亿美元。

DeepSeek-V3在多项基准测试中表现优异，尤其在中文和数学为中心的测试中得分高于其他大模型。在Math-500测试中得分高达90.2，远高于排名第二的Qwen的80分。DeepSeek为DeepSeek-V3 API设定的价格与上一代DeepSeek-V2相同，但将在明年2月8日后调整计费标准。

用户对DeepSeek-V3的评价普遍积极，认为其性价比高，且在实际测试中表现出色，能够理解复杂问题并提供简单的解决方案。