GPT-4推理能力为0？开发者悬赏1万美金被打脸，神秘提示正确率直冲100%

AIGC动态1年前 (2024)发布 AIera

3,296 0 0

文章摘要

新智元最近报道了关于GPT-4和Claude 3的推理能力的争议。一位名叫Taelin的程序员和初创公司Higher Order的创始人，对GPT模型的推理能力表示怀疑，他认为GPT模型在训练集之外没有任何推理能力，无法实现人工通用智能（AGI）。为了证明这一点，他提出了一个脑筋急转弯的挑战，并悬赏1万美元给能解决这个问题的人。

Taelin提出的问题是一个逻辑推理题，要求参与者使用GPT模型解决一个名为A::B的问题，这个问题涉及到一系列的token转换规则。他认为GPT模型无法学习到训练集之外的新问题，也无法进行长期的逻辑推理。然而，他的观点很快就被推翻了。在挑战发布后不久，就有人使用精心设计的提示（prompt）使GPT-4和Claude 3在解决这个问题上取得了接近100%的成功率。

这个事件引发了关于GPT模型推理能力的广泛讨论。有人认为，GPT模型只是需要更好的提示才能正确解决问题。沃顿商学院教授Ethan Mollick甚至评论说，很多时候我们认为LLM无法解决的问题，实际上只是因为没有给出合适的提示。

Taelin最终承认自己的观点是错误的，并支付了悬赏的1万美元。这次事件表明，GPT模型在逻辑推理方面的能力可能被低估了。尽管如此，Taelin仍然认为GPT模型无法实现AGI，因为它们缺乏进行持续逻辑推理的能力。他指出，GPT模型的注意力机制作为一种计算模型的固定性，限制了它们的灵活性。

此外，一些网友和专家指出，问题的成功或失败可能与token化的方式有关。Eric (e/ass)提到，如果token化处理得不好，即使是简单的字符串操作也无法顺利完成。他还指出，与人类能够进行动态分块处理不同，目前的LLM还没有找到有效的解决方案。

尽管Taelin的挑战最终被证明是错误的，但这次事件也展示了GPT模型在解决复杂问题方面的潜力。Taelin表示，尽管GPT模型可能不会是实现AGI的最终形式，但它们已经展现出了强大的能力，解决了许多现实世界的问题，并加速了人类进步的步伐。他相信通用人工智能的到来已经近在咫尺，但它不会是GPT，也不会是任何基于梯度下降的形式。