文章摘要
【关 键 词】 谷歌更新、Transformer架构、MoD技术、计算资源分配、训练效率提升
谷歌最近更新了其Transformer架构,推出了一种名为Mixture-of-Depths(MoD)的新技术。
这项技术通过动态分配大模型中的计算资源,跳过一些不必要的计算,从而显著提高了训练效率和推理速度。
MoD的核心思想是在输入序列中的特定位置动态分配FLOPs(浮点运算次数),以优化模型不同层次深度中的资源分配。
这种方法不仅节省了计算资源,还提高了模型的效率,使得每次前向传播所需的FLOP更少,并且在训练后采样时步进速度提高了50%。
MoD的提出基于这样一个观察:在大模型的训练和推理中,很多计算是不必要的。
例如,预测下一个句子可能很难,而预测句子结束的标点符号则相对简单。
如果给这两种任务分配相同的计算资源,显然对后者来说是一种浪费。
理想情况下,模型应该只给那些需要准确预测的token分配更多的计算资源。
MoD正是基于这样的理念,通过限制给定层的自注意力和MLP计算的token数量,迫使神经网络学会主要关注真正重要的信息。
这种方法使用一个已知张量大小的静态计算图,在时间和模型深度上动态扩展计算量。
MoD的另一个优势在于它能够保障负载平衡,避免了传统方法中可能出现的某些token被过度处理或处理不足的问题。
在MoD中,router输出的权重被用于确定哪些token将使用transformer计算,权重较大的token将参与计算,而权重较小的token则通过残差连接绕过计算。
研究团队通过实验展示了MoD在不同计算预算下的性能表现。
他们发现,MoD方法能够在更低的损失水平上拥有更多的参数,并且在训练之外,MoD的计算节省仍然有效。
此外,研究团队还探讨了MoD与MoE(Mixture-of-Experts)结合的可能性,这种结合被称为MoDE,结果表明这种结合能提供更好的性能和更快的推理速度。
MoD的推出引发了业界的广泛关注,有人将其与ResNet相比较,但MoD的跳过连接是完全绕过层的,与ResNet有所不同。
这项研究由DeepMind和麦吉尔大学共同进行,主要贡献者是David Raposo和Adam Santoro,两位都是DeepMind的研究科学家,此前共同发表了引用次数超过3500次的论文《Relational inductive biases, deep learning, and graph networks》,定义了Inductive bias(归纳偏置)的概念。
MoD的研究成果已经在论文中公布,链接为:https://arxiv.org/abs/2404.02258。
原文和模型
【原文链接】 阅读原文 [ 1093字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4
【摘要评分】 ★☆☆☆☆