文章摘要
【关 键 词】 GPT-4o测试、逻辑推理、问题解决、废话比率、模型局限
剑桥大学研究主任、菲尔兹奖得主Timothy Gowers最近对大型语言模型(LLM)如GPT-4o进行了一项测试,以解决经典的“狼-山羊-卷心菜”过河问题。测试结果显示,这些模型在解决这一问题上表现不佳,甚至在最简单的变体上也给出了错误答案。Gowers提出了一个新的评价标准——废话比率(crapness ratio),即模型给出的总答案与正确答案之间的比率,发现大模型的废话比率可能高达5倍。
在测试中,Gowers首先提出了一个简单的问题:一个农民需要带两只鸡过河,船只能容纳一个人和两只动物,最少需要几次渡河。即使是小孩子也能迅速给出正确答案,但ChatGPT却给出了一个5次渡河的复杂且愚蠢的解决方案。随后,Gowers加大了难度,提出了100只鸡和1000只鸡的过河问题。在100只鸡的问题中,GPT-4o意外地给出了正确答案。但在1000只鸡的问题中,模型的废话比率飙升至125倍,其解决方案远远偏离了正确答案。
这一测试结果引发了一些争议。一些网友认为,这种极端的测试并不能很好地评估LLM的能力,因为它们与人类的智商相去甚远。也有人认为,现在就对LLM的能力下定论还为时过早。
然而,这一测试也揭示了LLM在逻辑推理和问题解决方面的局限性。在解决“狼-山羊-卷心菜”问题时,模型忽视了一些重要的约束条件,如不能让鸡单独和狼在一起,这在某些情况下是完全可行的。此外,即使在被告知农民根本不需要过河的情况下,GPT-4o仍然提出了一个9次渡河的复杂解决方案。
总的来说,尽管LLM在某些方面表现出色,如自然语言处理和生成,但它们在逻辑推理和问题解决方面仍有待提高。这一测试结果提醒我们,在依赖这些模型进行复杂任务时,需要谨慎对待它们给出的答案,并在必要时进行人工审核和纠正。同时,这也为未来的研究提供了新的方向,即如何改进LLM的逻辑推理和问题解决能力,使它们在更广泛的应用场景中发挥更大的作用。
原文和模型
【原文链接】 阅读原文 [ 5089字 | 21分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★