世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!

AIGC动态4个月前发布 AIera
849 0 0
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!

 

文章摘要


【关 键 词】 语言模型人工智能模拟理解思维探针内部模型

MIT计算机科学和人工智能实验室(CSAIL)的研究人员发现,大型语言模型(LLM)在训练过程中,已经发展出了对现实世界的模拟和理解。这项研究挑战了以往对LLM的理解,即它们仅仅是通过统计概率预测下一个词(token),而没有真正理解语言和现实世界。

研究人员通过开发一套小型卡雷尔谜题(Karel Puzzle),训练LLM学习一种特定的解决方案,但没有直接展示工作原理。通过使用“探针”(probing)技术,研究人员深入探究了模型在生成新解决方案时的“思维过程”。实验结果表明,尽管训练过程中没有直接接触过相关信息,模型仍然自发地形成了对底层模拟环境的概念。

这项研究的主要发现包括:
1. LLM在训练过程中,能够学习到程序中的形式化语义,即使训练目标仅仅是预测下一个token。
2. 模型在超过100万个随机谜题上训练后,自发地形成了对底层模拟环境的概念,这表明LLM可能在发展自己对现实的理解。
3. 通过使用“思维探针”,研究人员发现LLM已经开发了自己的内部模拟,来模拟机器人如何响应每条指令而移动。
4. LLM对语言的理解是分阶段发展的,类似于儿童学习语言的过程,从牙牙学语到语法习得,最终达到语义习得。

这项研究的意义在于,它揭示了LLM在理解语言和现实世界方面的潜力,这可能对未来的人工智能发展产生重要影响。尽管研究存在局限性,如使用的是简单的编程语言和probe模型架构,但未来的工作将关注更通用的实验设置,并利用对LLM“思维过程”的见解来改进训练方式。

此外,这项研究也引发了关于LLM工作原理的讨论,即它们的能力是否仅仅是由于大规模的统计相关性,还是对现实产生了有意义的理解。研究人员认为,LLM开发了一个模拟现实的内部模型,这可能有助于它们更深入地理解语言。

总的来说,这项研究为理解LLM的工作原理提供了新的视角,并为未来的人工智能研究和应用提供了有价值的启示。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3427字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...