李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

2,587 0 0

文章摘要

李飞飞和谢赛宁团队的最新研究发现，多模态大型语言模型（MLLM）展现出了记忆和回忆空间的能力，甚至出现了局部世界模型和空间意识的迹象。这项研究名为“空间思维（Thinking in Space）”，强调了空间推理对人类智能的重要性，并预测到2025年，空间智能的界限可能会被突破。研究团队通过与Gemini的对比测试发现，尽管MLLM在空间智能方面展现出竞争力，但在相对方向、相对距离、绝对距离、房间面积、数数和出现顺序等任务中，模型的表现仍然不如人类。

研究团队开发了一个新的基准测试VSI-Bench，包含超过5000对问答对，用以评估MLLM的视觉-空间智能。这些问答对来源于公共室内3D场景重建数据集，覆盖配置类、测量估算类和时空类三种任务类型。评估结果显示，尽管MLLM在定量任务中表现出相对优势，但在需要精确估算的测量任务上，与人类的差距缩小。Gemini-1.5 Pro在某些任务中接近人类水平，而开源模型的表现则参差不齐。

研究还发现，语言提示技术如CoT或多数投票等方法在视觉空间任务中并不奏效，甚至对任务产生负面影响，这与它们在一般视频分析任务中的有效性形成对比。此外，MLLM在处理空间信息时，倾向于构建一系列局部化的世界模型，而非一个连贯的全局模型。当问题涉及相距较远的对象时，模型的性能会迅速下降，这表明开发更有效的空间记忆机制是未来研究的关键方向。

这项研究不仅展示了MLLM在视觉空间智能方面的潜力和局限性，还为未来的AI助手在日常生活中的应用提供了新的思路。通过提高MLLM的视觉空间智能，可能会彻底改变AI助手的功能和效用。