标签：算力节约

MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」

本文介绍了MoE（混合专家）作为一种模块化的稀疏激活技术在大型模型训练中的应用。MoE通过将模型参数划分为多个专家子模块，每个输入仅激活少数相关专家，从...

AIGC动态

1年前 (2024)