苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑

AIGC动态14小时前发布 AIera
66 0 0
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑

 

文章摘要


【关 键 词】 模式匹配推理能力数学能力多步问题神经符号AI

苹果研究者的最新研究对大型语言模型(LLM)的推理能力提出了质疑。研究发现,无论是闭源的OpenAI GPT-4o和o1模型,还是开源的Llama、Phi、Gemma和Mistral等模型,都没有显示出任何形式推理的证据,更像是复杂的模式匹配器。这一观点得到了AI社区的广泛讨论,包括谷歌DeepMind科学家Denny Zhou和Meta AI研究者田渊栋的支持。

研究者们通过开发新的数据集GSM-Symbolic和GSM-NoOp来客观评价LLM的数学能力。GSM-Symbolic通过修改GSM8K数据集中的题目,如改变名称和数字,来测试模型是否能够理解题目的核心逻辑。GSM-NoOp则在题目中添加无关数据,以判断模型是否会受到这些数据的影响。实验结果显示,当题目发生变化时,即使是专门为数理推断优化的模型,其准确率也会下降,表明LLM可能并没有真正理解数学概念。

进一步的实验增加了题目的难度,如删除或增加分句,以及添加无关论述。结果表明,LLM的性能极不稳定,可靠性差,对无关信息的敏感度高,这进一步证实了LLM在执行真正的数学推理方面的局限性。研究者得出结论,LLM可能更像是复杂的模式匹配器,而非真正的逻辑推理器。

此外,另一项研究《信仰与命运:Transformer作为模糊模式匹配器》也证实了LLM并没有真正理解数学概念,而是通过模糊模式匹配来寻找答案。研究者提出了“线性化子图匹配”的概念,即LLM通过匹配训练数据中的相似子图来解决问题。这一发现表明,LLM在处理多步问题时,其性能会随着问题的复杂度增加而急剧下降。

这些研究结果引发了对LLM未来发展的思考,包括如何改进模型以更好地处理多步问题,以及如何使模型更容易处理推理链问题。同时,这些发现也支持了神经符号AI的观点,即结合符号操作和神经网络可能是AI发展的必要条件。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3933字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...