菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

AIGC动态1年前 (2024)发布 AIera

2,307 0 0

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

文章摘要

剑桥大学研究主任、菲尔兹奖得主Timothy Gowers最近对大型语言模型（LLM）如GPT-4o进行了一项测试，以解决经典的“狼-山羊-卷心菜”过河问题。测试结果显示，这些模型在解决这一问题上表现不佳，甚至在最简单的变体上也给出了错误答案。Gowers提出了一个新的评价标准——废话比率（crapness ratio），即模型给出的总答案与正确答案之间的比率，发现大模型的废话比率可能高达5倍。

在测试中，Gowers首先提出了一个简单的问题：一个农民需要带两只鸡过河，船只能容纳一个人和两只动物，最少需要几次渡河。即使是小孩子也能迅速给出正确答案，但ChatGPT却给出了一个5次渡河的复杂且愚蠢的解决方案。随后，Gowers加大了难度，提出了100只鸡和1000只鸡的过河问题。在100只鸡的问题中，GPT-4o意外地给出了正确答案。但在1000只鸡的问题中，模型的废话比率飙升至125倍，其解决方案远远偏离了正确答案。

这一测试结果引发了一些争议。一些网友认为，这种极端的测试并不能很好地评估LLM的能力，因为它们与人类的智商相去甚远。也有人认为，现在就对LLM的能力下定论还为时过早。

然而，这一测试也揭示了LLM在逻辑推理和问题解决方面的局限性。在解决“狼-山羊-卷心菜”问题时，模型忽视了一些重要的约束条件，如不能让鸡单独和狼在一起，这在某些情况下是完全可行的。此外，即使在被告知农民根本不需要过河的情况下，GPT-4o仍然提出了一个9次渡河的复杂解决方案。

总的来说，尽管LLM在某些方面表现出色，如自然语言处理和生成，但它们在逻辑推理和问题解决方面仍有待提高。这一测试结果提醒我们，在依赖这些模型进行复杂任务时，需要谨慎对待它们给出的答案，并在必要时进行人工审核和纠正。同时，这也为未来的研究提供了新的方向，即如何改进LLM的逻辑推理和问题解决能力，使它们在更广泛的应用场景中发挥更大的作用。