GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Transformer「数不到n」

AIGC动态1年前 (2024)发布 AIera

3,068 0 0

GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Transformer「数不到n」

文章摘要

【关键词】 语言模型、计数难题、模型比较、Transformer、人机交互

在新智元的报道中，工程师Riley Goodside通过“Strawberry里有几个r”的问题测试了多个大型语言模型（LLM）的能力。他发现，尽管一些模型声称能够解决这一问题，但实际上它们的表现并不理想。例如，Reflection 70B模型在“反思微调”算法的帮助下能够纠正错误，但GPT-4o模型在多次尝试后仍然无法给出正确答案，甚至在被连续判错后出现了混乱的回答模式。

Riley Goodside的测试显示，GPT-4o在36次回答中，错误地回答“2个”的次数最多，尽管这明显是错误的。相比之下，Claude 3.5 Sonnet模型在面对错误判断时会追问原因，并在发现提问者持续不合理时选择停止回答，显示出更多的“人味”。

沃顿商学院教授Ethan Mollick指出，虽然LLM在某些简单任务上可能表现不佳，但这并不意味着它们在其他任务上无法表现出色。他强调，关注LLM的失败并不能全面理解它们在实际应用中的潜力和对现实世界的影响。

谷歌的研究进一步探讨了LLM在计数任务上的困难。研究发现，Transformer模型在处理这类问题时存在局限性，主要是因为Softmax注意力机制的均值特性。这种机制使得模型无法在不考虑位置嵌入的情况下执行计数任务。研究还发现，对于较小的模型维度，一层Transformer无法实现计数任务，而较大的模型可以通过计算输入序列的直方图来完成计数。

实验结果表明，当模型维度足够大时，可以通过计算直方图来完成计数任务，但对于较小的维度，一层Transformer则无法实现。这表明在计数任务中，可能需要借助于不具有相同限制的工具，如代码解释器等。研究者还探讨了模型大小与执行计数任务能力之间的依赖性，发现对于超过模型维度的词表大小，精确计数可能是不可能完成的任务。

总的来说，这些发现揭示了大型语言模型在处理简单计数任务时的局限性，并指出了在开发新架构时需要考虑的Transformer的这些限制。