文章摘要
【关 键 词】 多模态、空间智能、视觉-空间、智能助手、基准测试
李飞飞和谢赛宁团队的最新研究发现,多模态大型语言模型(MLLM)展现出了记忆和回忆空间的能力,甚至出现了局部世界模型和空间意识的迹象。这项研究名为“空间思维(Thinking in Space)”,强调了空间推理对人类智能的重要性,并预测到2025年,空间智能的界限可能会被突破。研究团队通过与Gemini的对比测试发现,尽管MLLM在空间智能方面展现出竞争力,但在相对方向、相对距离、绝对距离、房间面积、数数和出现顺序等任务中,模型的表现仍然不如人类。
研究团队开发了一个新的基准测试VSI-Bench,包含超过5000对问答对,用以评估MLLM的视觉-空间智能。这些问答对来源于公共室内3D场景重建数据集,覆盖配置类、测量估算类和时空类三种任务类型。评估结果显示,尽管MLLM在定量任务中表现出相对优势,但在需要精确估算的测量任务上,与人类的差距缩小。Gemini-1.5 Pro在某些任务中接近人类水平,而开源模型的表现则参差不齐。
研究还发现,语言提示技术如CoT或多数投票等方法在视觉空间任务中并不奏效,甚至对任务产生负面影响,这与它们在一般视频分析任务中的有效性形成对比。此外,MLLM在处理空间信息时,倾向于构建一系列局部化的世界模型,而非一个连贯的全局模型。当问题涉及相距较远的对象时,模型的性能会迅速下降,这表明开发更有效的空间记忆机制是未来研究的关键方向。
这项研究不仅展示了MLLM在视觉空间智能方面的潜力和局限性,还为未来的AI助手在日常生活中的应用提供了新的思路。通过提高MLLM的视觉空间智能,可能会彻底改变AI助手的功能和效用。
原文和模型
【原文链接】 阅读原文 [ 4723字 | 19分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆