文章摘要
【关 键 词】 DeepMind、Transformer、NAR、TransNAR、算法推理
DeepMind最近提出了一种结合Transformer和神经算法推理器(NAR)的混合架构方法,以解决Transformer模型在算法推理任务上的缺陷。这种新的架构被称为TransNAR,它融合了Transformer的语言理解能力和基于图神经网络(GNN)的NAR的强大算法推理能力,实现了更加泛化、稳健和准确的大型语言模型(LLM)推理。
在NLP领域,尽管Transformer模型已成为主流架构,但它无法有效处理算法推理任务,尤其是精确和稳健的推理。为了弥补这一缺陷,DeepMind研究人员提出了TransNAR架构,通过将Transformer与NAR相结合,提高了模型在数学、代码等领域下游任务的应用能力。
TransNAR接受两种输入:文本形式的算法问题规范和相应的图表征,输出问题的文本答案。这种架构利用预训练的NAR来增强Transformer,通过embedding进行通信,并借鉴了多模态LLM的设计,融合不同模态的信息。实验表明,TransNAR在多个算法任务上显著优于单独的Transformer模型,尤其在处理分布外(OOD)推理时表现更佳。
具体来说,TransNAR通过以下步骤工作:首先正确初始化输入,然后分别通过Transformer层和NAR层处理文本和图表征,最后融合两个流的信息并输出最终结果。在实验中,TransNAR显示出在动态规划、几何、图论等多个算法类别上的优越性能,显著提升了OOD泛化能力。
此外,TransNAR的成功也凸显了预训练NAR的重要性,它在CLRS-30算法基准上展现出强大的泛化能力,这为未来模型提供了新的思路。通过随机位置编码和跨注意力机制的引入,TransNAR能够在保持模型原有稳健性的同时,进一步提高性能。
总之,TransNAR的提出为解决Transformer模型在算法推理方面的不足提供了一种有效的解决方案,它结合了NAR的算法推理能力和Transformer的语言理解能力,为复杂算法任务提供了更准确、更稳健的推理。
原文和模型
【原文链接】 阅读原文 [ 4119字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 generalv3.5
【摘要评分】 ★★★★★