拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

AIGC动态1年前 (2024)发布 AIera

2,894 0 0

拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

文章摘要

【关键词】 DeepMind、Transformer、NAR、TransNAR、算法推理

DeepMind最近提出了一种结合Transformer和神经算法推理器（NAR）的混合架构方法，以解决Transformer模型在算法推理任务上的缺陷。这种新的架构被称为TransNAR，它融合了Transformer的语言理解能力和基于图神经网络（GNN）的NAR的强大算法推理能力，实现了更加泛化、稳健和准确的大型语言模型（LLM）推理。

在NLP领域，尽管Transformer模型已成为主流架构，但它无法有效处理算法推理任务，尤其是精确和稳健的推理。为了弥补这一缺陷，DeepMind研究人员提出了TransNAR架构，通过将Transformer与NAR相结合，提高了模型在数学、代码等领域下游任务的应用能力。

TransNAR接受两种输入：文本形式的算法问题规范和相应的图表征，输出问题的文本答案。这种架构利用预训练的NAR来增强Transformer，通过embedding进行通信，并借鉴了多模态LLM的设计，融合不同模态的信息。实验表明，TransNAR在多个算法任务上显著优于单独的Transformer模型，尤其在处理分布外（OOD）推理时表现更佳。

具体来说，TransNAR通过以下步骤工作：首先正确初始化输入，然后分别通过Transformer层和NAR层处理文本和图表征，最后融合两个流的信息并输出最终结果。在实验中，TransNAR显示出在动态规划、几何、图论等多个算法类别上的优越性能，显著提升了OOD泛化能力。

此外，TransNAR的成功也凸显了预训练NAR的重要性，它在CLRS-30算法基准上展现出强大的泛化能力，这为未来模型提供了新的思路。通过随机位置编码和跨注意力机制的引入，TransNAR能够在保持模型原有稳健性的同时，进一步提高性能。

总之，TransNAR的提出为解决Transformer模型在算法推理方面的不足提供了一种有效的解决方案，它结合了NAR的算法推理能力和Transformer的语言理解能力，为复杂算法任务提供了更准确、更稳健的推理。