盛名一时的BERT哪去了?这个问题的答案昭示了LLM范式的转变
文章摘要
【关 键 词】 LLM发展、模型架构、去噪目标、双向注意力、任务范式
在大型语言模型(LLM)的发展历程中,我们见证了从编码器-解码器模型到仅解码器模型的转变。AI 创业公司 Reka 的首席科学家 Yi Tay 在其博客文章中深入探讨了这一变化及其背后的原因。
Yi Tay 首先介绍了 LLM 模型架构的三大范式:仅编码器模型(如 BERT)、编码器-解码器模型(如 T5)和仅解码器模型(如 GPT 系列)。他指出,编码器-解码器模型实际上也是自回归模型,解码器在这些模型中扮演着因果解码器的角色。此外,他还提到了前缀语言模型(PrefixLM),这是一种没有交叉注意力的变体,有时也被称为非因果解码器。
Yi Tay 强调,BERT 等仅编码器模型的去噪方式与 T5 等模型有所不同。BERT 模型通过分类任务头在预训练后发挥作用,而 T5 等模型则采用了序列到序列的格式。他提到,T5 模型中的去噪并非新的目标函数,而是一种跨输入的数据变换。
在讨论去噪目标时,Yi Tay 认为,尽管去噪目标在某些情况下效果不错,但它并不足以单独作为目标。去噪目标的主要缺点是损失暴露较少,导致样本效率较低。此外,去噪目标的输入/输出格式重新设定也使得它们不太适合少样本学习。因此,他认为去噪目标应作为常规语言建模的补充目标。
Yi Tay 还提到了 BERT 类模型的消失。他认为,这主要是因为任务/建模范式的统一和转变。BERT 模型被弃用的真正原因是人们希望一次性完成所有任务,因此采用了更灵活的自回归模型。在 2018-2021 年期间,从单任务微调转向大规模多任务模型的范式转变,使得统一的 SFT 模型成为主流。
在讨论双向注意力时,Yi Tay 指出,双向注意力是一种有趣的归纳偏置,但其重要性可能随着模型规模的增加而降低。他还提到了编码器-解码器架构的优缺点,如编码器端不受因果掩码的限制,但输入和目标必须分配固定的预算。
最后,Yi Tay 总结了 LLM 研究者和实践者需要具备的关键能力:能够从架构和预训练方面推断归纳偏置,并理解这些偏置的微妙差异。他认为,编码器-解码器和仅解码器模型都是自回归模型,它们在实现上有差异,也有各自的优缺点。去噪目标可以作为因果语言模型的补充,而双向注意力对较小规模模型有很大助益,但对较大模型来说可有可无。总之,BERT 模型已被更灵活的去噪(自回归)T5 模型所取代,这主要是由于范式统一,即人们更喜欢使用一个通用模型去执行各种任务。
原文和模型
【原文链接】 阅读原文 [ 3843字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★