MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

AIGC动态6个月前发布 AIera
813 0 0
MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

 

文章摘要


【关 键 词】 PEER技术MoE模型参数效率知识迁移计算优化

谷歌DeepMind的研究科学家Xu Owen He最近提出了一种名为PEER(参数高效专家检索)的新技术,该技术能够将混合专家(MoE)模型的专家数量扩展到百万级别,同时不增加计算成本。MoE是当前大型语言模型(LLM)的主流架构之一,通过将数据路由到小型且专门的专家模块,可以在参数量增加的同时保持推理所需的计算成本基本不变。然而,MoE模型的专家数量通常限制在16或32以内。

PEER技术的核心是使用大量小型专家,每个专家仅包含一个神经元和隐藏层的单例MLP。通过多头检索机制,PEER可以动态组装出含有多个神经元的专家MLP网络,从而提高参数效率知识迁移能力。PEER层可以插入到Transformer架构的中间或代替FFW层。

PEER还采用了乘积键检索技术,通过连接来自两个独立子键的向量来创建笛卡尔积结构,从而高效地找到前k位专家。这种方法将top-k专家检索的复杂度从O(N·d)降到了O((√N + k^2)d)。

实验结果表明,在相同的计算预算下,PEER模型达到了最低的计算优化困惑度。在几个流行的语言建模数据集上,PEER模型的性能优于其他基线方法。消融实验进一步研究了专家数量和活跃专家数量对模型性能的影响,结果表明增加专家数量和活跃专家数量可以提高模型性能。

此外,PEER模型在利用大量专家方面表现出色,即使对于100万个专家,专家使用率也接近100%。使用查询批归一化(BatchNorm)可以增加专家使用率,使专家的使用更加平衡,并降低困惑度。

总的来说,PEER技术为大规模MoE模型的发展提供了一种有效的解决方案,通过使用大量小型专家和乘积键检索技术,在不增加计算成本的情况下实现了模型性能的提升。这项研究为未来LLM的扩展和终身学习提供了新的思路和方法。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3686字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...