标签:训练效率提升

谷歌更新Transformer架构,更节省计算资源!50%性能提升

谷歌最近更新了其Transformer架构,推出了一种名为Mixture-of-Depths(MoD)的新技术。这项技术通过动态分配大模型中的计算资源,跳过一些不必要的计算,从而...