标签:算力节约

MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

本文介绍了MoE(混合专家)作为一种模块化的稀疏激活技术在大型模型训练中的应用。MoE通过将模型参数划分为多个专家子模块,每个输入仅激活少数相关专家,从...