两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

AIGC动态1年前 (2024)发布 AIera

1,909 0 0

两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

文章摘要

在针对当前最先进的大型语言模型（LLM）进行的一项研究中，研究人员发现了一个令人意外的结果：即使是顶尖的模型，在处理简单的逻辑推理问题时也表现得相当糟糕。

研究指出，这些模型在处理此类问题时，并没有展现出应有的逻辑推理能力，反而似乎是在“猜测”答案。在一系列实验中，研究人员设计了问题的不同变体，以避免模型简单通过数字运算得出答案。结果发现，大多数LLM模型的正确响应率极低，其中一些甚至在面对更复杂的问题时，得出了完全错误的推理过程，但意外地得到了正确答案。

有趣的是，当模型被限制在简短的回答中输出结果时，它们的正确率在某些情况下有所上升，这表明模型在处理信息时可能过于复杂化。此外，研究还发现，一些模型在MMLU、ARC-c等基准测试中的高得分与AIW问题上的表现之间存在显著不匹配，这暗示了LLM在处理常识性推理任务时的缺陷。

研究还特别提到了所谓的“逆转诅咒”，即模型在学会了“A是B”的知识点后，无法将其泛化到“B是A”的情况。这种推理能力的不足，不仅在小规模模型中表现明显，而且在更大规模的模型中也同样存在。

最终，这项研究强调了推理能力和常识理解的重要性，不应与模型存储和检索大量事实的能力混为一谈。这些发现对于理解LLM的局限性和未来研究方向具有重要的指导意义。