负载均衡 | 学习AIGC

训练MoE足足提速70%！华为只用了3招

MoE（混合专家）模型在扩展模型能力方面具有显著优势，但其训练过程中面临效率不足和资源分配不均的挑战。华为通过构建Adaptive Pipe & EDPB优化方案，解决了...

AIGC动态

3个月前

混合专家模型（MoE）因其能够将不同任务分配给擅长处理的专家网络而备受关注，但专家网络的负载均衡问题成为影响系统推理性能的关键因素。某些专家网络被频繁...

AIGC动态

4个月前

国内著名大模型平台DeepSeek近日开源了其V3模型的最新版本V3-0324，尽管发布过程极为低调，未在国内外社交媒体上进行宣传，但该模型迅速引起了广泛关注。V3-0...

AIGC动态

5个月前

DeepSeek在OpenSourceWeek期间开源了DualPipe和EPLB两项关键技术，为解决大模型训练中存在的资源浪费与效率瓶颈提供了创新方案。DualPipe通过双向并行处理机...

AIGC动态

6个月前

DeepSeek V3是一款参数量为671B的MoE模型，激活37B，在14.8T高质量token上进行了预训练。该模型以其低成本和开源特性受到关注，其训练细节在53页的论文中被详...

AIGC动态

8个月前