标签:PEER技术

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

谷歌DeepMind的研究科学家Xu Owen He最近提出了一种名为PEER(参数高效专家检索)的新技术,该技术能够将混合专家(MoE)模型的专家数量扩展到百万级别,同时...