盛名一时的BERT哪去了？这个问题的答案昭示了LLM范式的转变

AIGC动态2个月前发布 almosthuman2014

387 0 0

文章摘要

在大型语言模型（LLM）的发展历程中，我们见证了从编码器-解码器模型到仅解码器模型的转变。AI 创业公司 Reka 的首席科学家 Yi Tay 在其博客文章中深入探讨了这一变化及其背后的原因。

Yi Tay 首先介绍了 LLM 模型架构的三大范式：仅编码器模型（如 BERT）、编码器-解码器模型（如 T5）和仅解码器模型（如 GPT 系列）。他指出，编码器-解码器模型实际上也是自回归模型，解码器在这些模型中扮演着因果解码器的角色。此外，他还提到了前缀语言模型（PrefixLM），这是一种没有交叉注意力的变体，有时也被称为非因果解码器。

Yi Tay 强调，BERT 等仅编码器模型的去噪方式与 T5 等模型有所不同。BERT 模型通过分类任务头在预训练后发挥作用，而 T5 等模型则采用了序列到序列的格式。他提到，T5 模型中的去噪并非新的目标函数，而是一种跨输入的数据变换。

在讨论去噪目标时，Yi Tay 认为，尽管去噪目标在某些情况下效果不错，但它并不足以单独作为目标。去噪目标的主要缺点是损失暴露较少，导致样本效率较低。此外，去噪目标的输入/输出格式重新设定也使得它们不太适合少样本学习。因此，他认为去噪目标应作为常规语言建模的补充目标。

Yi Tay 还提到了 BERT 类模型的消失。他认为，这主要是因为任务/建模范式的统一和转变。BERT 模型被弃用的真正原因是人们希望一次性完成所有任务，因此采用了更灵活的自回归模型。在 2018-2021 年期间，从单任务微调转向大规模多任务模型的范式转变，使得统一的 SFT 模型成为主流。

在讨论双向注意力时，Yi Tay 指出，双向注意力是一种有趣的归纳偏置，但其重要性可能随着模型规模的增加而降低。他还提到了编码器-解码器架构的优缺点，如编码器端不受因果掩码的限制，但输入和目标必须分配固定的预算。

最后，Yi Tay 总结了 LLM 研究者和实践者需要具备的关键能力：能够从架构和预训练方面推断归纳偏置，并理解这些偏置的微妙差异。他认为，编码器-解码器和仅解码器模型都是自回归模型，它们在实现上有差异，也有各自的优缺点。去噪目标可以作为因果语言模型的补充，而双向注意力对较小规模模型有很大助益，但对较大模型来说可有可无。总之，BERT 模型已被更灵活的去噪（自回归）T5 模型所取代，这主要是由于范式统一，即人们更喜欢使用一个通用模型去执行各种任务。