清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

1,937 0 0

文章摘要

微软研究院和清华大学的研究人员提出了一种名为Differential Transformer（DIFF Transformer）的新模型架构，旨在改进Transformer模型中的注意力机制。该架构通过引入“差分注意力”机制，旨在消除注意力噪声，使模型能够更加关注上下文中与任务相关的关键信息。

在Transformer模型中，注意力机制通过softmax函数来衡量序列中各个标记的重要性。然而，研究表明，大型语言模型（LLM）难以从上下文中准确检索关键信息。例如，改变关键信息在文档中的位置可以显著影响模型的检索性能。此外，Transformer模型经常过度关注不相关的上下文，导致信噪比低，淹没了正确答案。

DIFF Transformer通过差分注意力机制解决了这一问题，该机制通过两个softmax函数间的差异来消除注意力噪声。这种机制类似于电气工程中的差分放大器，通过输出两个信号之间的差异来消除输入中的共模噪声。实验结果表明，DIFF Transformer在各种下游任务上取得了良好的性能，尤其是在长上下文任务中，其累计平均的负对数似然值（NLL）随着上下文长度的增加而持续降低，表明其能更有效地利用不断增加的上下文。

此外，DIFF Transformer在关键信息检索任务中的表现也优于传统Transformer。在“大海捞针”测试中，DIFF Transformer在不同长度的上下文中检索关键信息的能力显著优于传统Transformer。特别是在关键信息位于上下文前半部分时，DIFF Transformer的精度提升更为显著。

在缩放特性方面，DIFF Transformer遵循Scaling Law，即使在参数数量和训练数据量较少的情况下，也能与更大、更复杂的模型相匹配。例如，68亿参数的DIFF Transformer达到了与110亿参数的Transformer相当的验证损失，但仅需62.2%的参数。

论文的共同一作包括来自微软研究院的Tianzhu Ye、Li Dong、Yuqing Xia和Yutao Sun。他们的研究兴趣涵盖了自然语言计算、系统与网络研究、大语言模型的骨干网络、长序列建模和推理等领域。