李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了

李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了

 

文章摘要


【关 键 词】 视觉空间智能多模态模型空间推理AI研究人类智能

纽约大学、耶鲁大学和斯坦福大学的研究者们提出了VSI-Bench,这是一个基于视频的基准测试,旨在评估多模态大语言模型(MLLM)在视觉空间智能方面的表现。VSI-Bench包含近290个真实室内场景视频和超过5000个问答对,通过连续的时间性输入来模拟人类观察世界的方式,从而丰富空间理解和推理。

评估结果显示,尽管MLLM展现出一定的视觉空间智能,但与人类相比仍有较大差距。人类评估者的平均准确率达到79%,而最佳模型仅为46%。在配置和时空任务上,人类表现接近完美,而MLLM在需要精确估计的测量任务上差距缩小,展现出相对优势。

研究还发现,空间推理是影响MLLM在VSI-Bench上表现的主要瓶颈。71%的错误源于空间推理,尤其是在理解距离、大小和方向方面。此外,语言提示技术在这种情况下反而有害,而MLLM在记忆空间时会形成一系列局部世界模型,而非统一的全局模型。

这项名为”Thinking in Space”的研究,由斯坦福大学教授李飞飞等人领导,旨在评估MLLM在空间推理方面的表现,这对人类智能至关重要。研究者们期待到2025年,AI领域能在空间智能方面取得更多突破。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2126字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...