文章摘要
【关 键 词】 差分注意力、模型优化、长上下文、关键信息检索、参数效率
微软研究院和清华大学的研究人员提出了一种名为Differential Transformer(DIFF Transformer)的新模型架构,旨在改进Transformer模型中的注意力机制。该架构通过引入“差分注意力”机制,旨在消除注意力噪声,使模型能够更加关注上下文中与任务相关的关键信息。
在Transformer模型中,注意力机制通过softmax函数来衡量序列中各个标记的重要性。然而,研究表明,大型语言模型(LLM)难以从上下文中准确检索关键信息。例如,改变关键信息在文档中的位置可以显著影响模型的检索性能。此外,Transformer模型经常过度关注不相关的上下文,导致信噪比低,淹没了正确答案。
DIFF Transformer通过差分注意力机制解决了这一问题,该机制通过两个softmax函数间的差异来消除注意力噪声。这种机制类似于电气工程中的差分放大器,通过输出两个信号之间的差异来消除输入中的共模噪声。实验结果表明,DIFF Transformer在各种下游任务上取得了良好的性能,尤其是在长上下文任务中,其累计平均的负对数似然值(NLL)随着上下文长度的增加而持续降低,表明其能更有效地利用不断增加的上下文。
此外,DIFF Transformer在关键信息检索任务中的表现也优于传统Transformer。在“大海捞针”测试中,DIFF Transformer在不同长度的上下文中检索关键信息的能力显著优于传统Transformer。特别是在关键信息位于上下文前半部分时,DIFF Transformer的精度提升更为显著。
在缩放特性方面,DIFF Transformer遵循Scaling Law,即使在参数数量和训练数据量较少的情况下,也能与更大、更复杂的模型相匹配。例如,68亿参数的DIFF Transformer达到了与110亿参数的Transformer相当的验证损失,但仅需62.2%的参数。
论文的共同一作包括来自微软研究院的Tianzhu Ye、Li Dong、Yuqing Xia和Yutao Sun。他们的研究兴趣涵盖了自然语言计算、系统与网络研究、大语言模型的骨干网络、长序列建模和推理等领域。
原文和模型
【原文链接】 阅读原文 [ 2469字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★