6700万参数比肩万亿巨兽GPT-4！微软MIT等联手破解Transformer推理密码

AIGC动态1年前 (2024)发布 AIera

3,325 0 0

6700万参数比肩万亿巨兽GPT-4！微软MIT等联手破解Transformer推理密码

文章摘要

【关键词】 因果推理、Transformer、模型训练、泛化能力、通用AI

由微软和MIT等机构的研究人员提出的新训练范式，通过因果模型构建数据集，成功地提升了模型的推理能力。该研究团队训练了一个仅有67M参数的微型Transformer模型，其表现在某些方面甚至能与GPT-4相媲美。这一成果受到了图灵奖得主Judea Pearl的启发，他曾提出通过符号化公理示例教授Transformer模型学习因果关系。

因果推理是一种遵循特定因果性公理或规则的推理过程。在这项研究中，作者探讨了模型是否能够从被动的符号演示中直接学习公理或规则，这种方法被称为“公理化训练”。研究中使用了因果图和公理来构建数据集，并通过传递性公理生成训练数据。为了提高模型的泛化能力，作者在训练数据中引入了结构化扰动，包括节点名称的随机生成、因果图拓扑结构的随机翻转以及链长度的变化。

在实验中，研究人员基于GPT-2架构训练了一个6700万参数的解码器模型，并考虑了不同的编码方式。结果显示，未使用位置编码的模型在更长的序列和复杂结构上表现良好，而使用正弦位置编码和可学习位置编码的模型在处理节点名称长度增加时表现较差。此外，训练数据中序列的多样性对于模型的泛化能力也至关重要。

研究结果表明，公理化训练的Transformer模型能够从简单因果序列的演示中学会推理更复杂的因果结构，即使在训练数据之外的更长序列上也能保持较高的准确率。这一发现为因果图推理领域提供了新的可能性，并可能为开发更接近通用人工智能（AGI）的模型铺平道路。此外，该研究还探讨了将公理化训练应用于从观察数据中的相关性陈述推断因果关系的任务，进一步证明了公理训练在因果推理领域的潜力。