GPT-4不是世界模型，LeCun双手赞同！ACL力证LLM永远无法模拟世界

AIGC动态1年前 (2024)发布 AIera

2,811 0 0

文章摘要

根据新智元的报道，亚利桑那大学、微软、霍普金斯大学等机构最近联合发布了一篇论文，从实证角度对LLM作为世界模拟器的能力进行了否定。这项研究已经被ACL 2024顶会接收。论文指出，GPT-4在模拟基于常识任务的状态变化时，比如烧开水，其准确度仅有60%。此外，LeCun对此表示支持，他认为世界模型永远不可能是LLM。这篇论文还提出了一个新的基准测试——bytesized32-state-prediction，并对GPT-4模型进行了测试，发现它在没有创新的情况下，不能成为可靠的世界模型。

摘要主要内容包括：研究背景：大模型（LLM）被认为可以集成海量事实知识，作为通往“世界模拟器”的基础，但对此一直存在争议。研究目的：通过实证研究来探究LLM是否可作为世界模拟器。研究方法：选择文本游戏领域进行检验，提出新的基准测试bytesized32-state-prediction，并在GPT-4上运行以量化其规划能力。研究结果：GPT-4在模拟复杂环境变化时的准确率不足60%，表明如果没有进一步的创新，LLM不能可靠地充当世界模拟器。学术意义：首次对LLM直接模拟虚拟环境的能力进行了量化分析，为未来研究提供了新方向。

关键发现或结论：– GPT-4在模拟世界方面表现出局限性，尤其是在涉及智能体行为无直接关联的状态转移时。- 研究提出了一个新的基准测试工具，用于量化LLM的规划能力。- 尽管LLM表现令人印象深刻，但目前还不能作为可靠的世界模型。- LLM要成为世界终极模拟器，还有很长的路要走。