微软和清华大学为 LLM 提出了 DIFF Transformer 架构

1,695 0 0

文章摘要

微软AI和清华大学的研究人员联合提出了一种新型架构——差分Transformer（DIFF Transformer），旨在提升大型语言模型的性能。该架构通过改进模型处理上下文的方式，减少无关信息的干扰，从而增强注意力机制。其核心特性是差分注意力机制，通过对比两张独立的注意力图来计算注意力，使模型能更有效地关注输入的相关部分，尤其在问答和文本摘要等任务中提高了准确度。

DIFF Transformer还提高了模型的可扩展性，以较少的训练资源实现与大型模型相似的性能，特别适合处理长数据序列。实验结果表明，DIFF Transformer在语言建模和信息检索等任务中超越了传统Transformer，提供了更高的性能和效率。其设计增强了长上下文建模、关键信息检索、幻觉缓解和上下文学习等实际应用，并减少了激活异常值，提高了跨不同数据集的准确性，增强了对输入顺序变化的鲁棒性，使其更适合低资源环境。

在零样本性能对比中，DIFF Transformer与几个经过良好训练的Transformer模型相比，显示出了更好或相当的结果。业界对此表现出了兴趣，尤其是在需要通过更多计算资源获得更高预测准确度的场景中。尽管DIFF Transformer需要执行两次注意力操作，可能会减慢训练和推理速度，但有人猜测这是否可以以更少的训练迭代或更少的数据带来更好的结果，围绕其讨论强调了计算成本和预测准确性之间的权衡。