标签:参数效率

中科院、百度提出新架构:突破参数限制,实现高效推理

针对大模型参数规模扩大与性能提升不匹配的挑战,中国科学院信息工程研究所联合百度与北京师范大学AI学院提出了Inner Thinking Transformer架构(ITT)。该架...

清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」精度暴涨30%!

微软研究院和清华大学的研究人员提出了一种名为Differential Transformer(DIFF Transformer)的新模型架构,旨在改进Transformer模型中的注意力机制。该架构...

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

谷歌DeepMind的研究科学家Xu Owen He最近提出了一种名为PEER(参数高效专家检索)的新技术,该技术能够将混合专家(MoE)模型的专家数量扩展到百万级别,同时...