标签:参数效率
清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」精度暴涨30%!
微软研究院和清华大学的研究人员提出了一种名为Differential Transformer(DIFF Transformer)的新模型架构,旨在改进Transformer模型中的注意力机制。该架构...
MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限
谷歌DeepMind的研究科学家Xu Owen He最近提出了一种名为PEER(参数高效专家检索)的新技术,该技术能够将混合专家(MoE)模型的专家数量扩展到百万级别,同时...