文章摘要
【关 键 词】 Transformer、神经算法推理、TransNAR、多层级训练、泛化能力
在AIGC领域,Transformer架构的引入极大地推动了大模型的技术创新,催生了ChatGPT、Coplit、讯飞星火、文心一言等生成式AI产品。尽管Transformer在自然语言理解任务上表现出色,但其在算法推理方面存在缺陷,特别是在面对超出训练数据分布的输入时,泛化能力急剧下降。
为了解决这一问题,谷歌DeepMind的研究人员提出了一种结合Transformer和神经算法推理(NAR)的新型架构——TransNAR。NAR是一种专门处理图结构数据的神经网络,能够自然地表达算法的逻辑流程,包括条件判断、循环迭代等编程结构。
TransNAR的输入包括文本形式的算法问题描述和相应的图表示。文本输入首先被送入Transformer层,通过自注意力和前馈网络生成文本表示;同时,图表示被送入NAR层,通过图神经网络操作生成图的节点和边的表示。当Transformer和NAR各自准备好表示后,跨注意力机制开始发挥作用,通过查询、键和值的交互实现信息的整合。
多层级训练策略是TransNAR成功的关键。在预训练阶段,NAR被独立训练,执行CLRS-30中的算法任务,学习算法的内在逻辑和计算步骤。在微调阶段,TransNAR接受双重输入,Transformer部分利用预训练的NAR提供的节点嵌入信息,通过跨注意力机制调节标记嵌入。此时,Transformer的参数可训练,而NAR的参数保持冻结,以确保模型的稳定学习和收敛。
研究人员通过CLRS-Text基准测试对TransNAR进行了综合评估。结果显示,TransNAR在多种算法任务上显著优于基线Transformer,尤其是在分布外的泛化能力上,展现出了超过20%的优化改进。这表明TransNAR能够有效地处理训练数据之外的更大或更复杂的问题实例,具有强大的鲁棒性和泛化能力。
总之,TransNAR的提出为解决Transformer在算法推理方面的缺陷提供了一种有效的解决方案。通过结合Transformer和NAR的优势,TransNAR在结构化输入处理、算法逻辑表达和泛化能力上取得了显著的突破,为AIGC领域的进一步发展奠定了坚实的基础。TransNAR的提出为解决Transformer在算法推理方面的缺陷提供了一种有效的解决方案。
原文和模型
【原文链接】 阅读原文 [ 1145字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆