MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

AIGC动态1年前 (2024)发布 AIera

1,636 0 0

MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

文章摘要

谷歌DeepMind的研究科学家Xu Owen He最近提出了一种名为PEER（参数高效专家检索）的新技术，该技术能够将混合专家（MoE）模型的专家数量扩展到百万级别，同时不增加计算成本。MoE是当前大型语言模型（LLM）的主流架构之一，通过将数据路由到小型且专门的专家模块，可以在参数量增加的同时保持推理所需的计算成本基本不变。然而，MoE模型的专家数量通常限制在16或32以内。

PEER技术的核心是使用大量小型专家，每个专家仅包含一个神经元和隐藏层的单例MLP。通过多头检索机制，PEER可以动态组装出含有多个神经元的专家MLP网络，从而提高参数效率和知识迁移能力。PEER层可以插入到Transformer架构的中间或代替FFW层。

PEER还采用了乘积键检索技术，通过连接来自两个独立子键的向量来创建笛卡尔积结构，从而高效地找到前k位专家。这种方法将top-k专家检索的复杂度从O(N·d)降到了O((√N + k^2)d)。

实验结果表明，在相同的计算预算下，PEER模型达到了最低的计算优化困惑度。在几个流行的语言建模数据集上，PEER模型的性能优于其他基线方法。消融实验进一步研究了专家数量和活跃专家数量对模型性能的影响，结果表明增加专家数量和活跃专家数量可以提高模型性能。

此外，PEER模型在利用大量专家方面表现出色，即使对于100万个专家，专家使用率也接近100%。使用查询批归一化（BatchNorm）可以增加专家使用率，使专家的使用更加平衡，并降低困惑度。

总的来说，PEER技术为大规模MoE模型的发展提供了一种有效的解决方案，通过使用大量小型专家和乘积键检索技术，在不增加计算成本的情况下实现了模型性能的提升。这项研究为未来LLM的扩展和终身学习提供了新的思路和方法。