DeepSeek发布最新论文,5大杀手锏让大模型训练、推理暴涨

AIGC动态2天前发布 AIGCOPEN
114 0 0
DeepSeek发布最新论文,5大杀手锏让大模型训练、推理暴涨

 

文章摘要


【关 键 词】 开源模型硬件架构计算效率内存优化网络设计

全球著名开源大模型平台DeepSeek发布了其最新开源模型V3的论文,重点探讨了在不牺牲性能的前提下,如何通过硬件架构和模型设计的创新突破硬件瓶颈。随着OpenAI GPT-3、DeepSeek-R1等前沿模型的涌现,硬件和算力资源的需求急剧上升,尤其是内存资源的需求每年增长超过1000%,而高速内存容量的增长速度却极为缓慢,导致内存供需失衡,严重制约了大模型的进一步发展。此外,传统计算架构和网络架构在处理大规模数据传输时也面临效率低下和带宽不足的问题。DeepSeek-V3通过一系列创新技术,如DeepSeek-MoE、多头潜在注意力、FP8混合精度训练和多标记预测等,有效解决了这些难题。

DeepSeek-MoE和多头潜在注意力是DeepSeek-V3的两大核心技术。DeepSeek-MoE通过选择性地激活专家参数的子集,大幅增加了总参数数量,同时保持适度的计算需求。例如,DeepSeek-V3拥有6710亿参数,但每个token仅激活370亿参数,显著降低了计算资源消耗。相比之下,密集模型如Qwen2.5-720亿和LLaMA3.1-4050亿在训练期间需要激活所有参数,计算成本远高于MoE模型。多头潜在注意力(MLA)则通过压缩键值(KV)缓存显著降低了内存消耗,每个token仅需70KB,远低于其他模型的存储需求。

FP8混合精度训练方法是DeepSeek-V3的另一项重要创新。该技术在保证模型质量的同时,大幅降低了计算成本,使得大规模训练更加经济可行。尽管GPTQ和AWQ等量化技术已在推理阶段广泛应用,但在训练阶段的应用相对较少。DeepSeek通过基础设施和算法团队的合作,开发了与FP8兼容的训练框架,并提出了未来硬件设计的改进建议,如提高累积精度和支持原生细粒度量化,以进一步提升训练效率。

多标记预测(MTP)框架通过在每个推理步骤中同时生成多个候选标记,显著提高了推理速度。传统自回归语言模型逐个生成标记的方式在模型规模增大和上下文长度增加时会显著降低效率。MTP框架通过引入多个轻量级预测模块,允许模型在一次推理步骤中生成多个标记,并通过并行验证确定最合适的标记,实验数据显示,MTP模块在预测下一个标记时的接受率高达80%至90%。

多平面双层胖树网络低延迟网络设计优化是DeepSeek在AI基础设施方面的创新。多平面双层胖树网络取代了传统的三层胖树拓扑结构,显著降低了集群网络成本,并提高了系统的稳健性和可扩展性。低延迟网络设计优化则通过InfiniBand GPUDirect Async(IBGDA)技术,允许GPU直接管理整个控制平面,消除了与GPU-CPU通信相关的延迟开销,显著提升了系统性能。

总体而言,DeepSeek-V3通过一系列硬件和软件创新,有效解决了大规模模型训练和推理中的硬件瓶颈问题,显著提升了计算效率和内存利用率,为未来大模型的发展提供了新的方向。

原文和模型


【原文链接】 阅读原文 [ 2970字 | 12分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...