苹果一篇论文得罪大模型圈？Transformer不会推理，只是高级模式匹配器！所有LLM都判死刑

2,304 0 0

文章摘要

苹果研究者的最新研究对大型语言模型（LLM）的推理能力提出了质疑。研究发现，无论是闭源的OpenAI GPT-4o和o1模型，还是开源的Llama、Phi、Gemma和Mistral等模型，都没有显示出任何形式推理的证据，更像是复杂的模式匹配器。这一观点得到了AI社区的广泛讨论，包括谷歌DeepMind科学家Denny Zhou和Meta AI研究者田渊栋的支持。

研究者们通过开发新的数据集GSM-Symbolic和GSM-NoOp来客观评价LLM的数学能力。GSM-Symbolic通过修改GSM8K数据集中的题目，如改变名称和数字，来测试模型是否能够理解题目的核心逻辑。GSM-NoOp则在题目中添加无关数据，以判断模型是否会受到这些数据的影响。实验结果显示，当题目发生变化时，即使是专门为数理推断优化的模型，其准确率也会下降，表明LLM可能并没有真正理解数学概念。

进一步的实验增加了题目的难度，如删除或增加分句，以及添加无关论述。结果表明，LLM的性能极不稳定，可靠性差，对无关信息的敏感度高，这进一步证实了LLM在执行真正的数学推理方面的局限性。研究者得出结论，LLM可能更像是复杂的模式匹配器，而非真正的逻辑推理器。

此外，另一项研究《信仰与命运：Transformer作为模糊模式匹配器》也证实了LLM并没有真正理解数学概念，而是通过模糊模式匹配来寻找答案。研究者提出了“线性化子图匹配”的概念，即LLM通过匹配训练数据中的相似子图来解决问题。这一发现表明，LLM在处理多步问题时，其性能会随着问题的复杂度增加而急剧下降。

这些研究结果引发了对LLM未来发展的思考，包括如何改进模型以更好地处理多步问题，以及如何使模型更容易处理推理链问题。同时，这些发现也支持了神经符号AI的观点，即结合符号操作和神经网络可能是AI发展的必要条件。