李飞飞、谢赛宁等探索MLLM「视觉空间智能」，网友：2025有盼头了

AIGC动态1个月前发布 almosthuman2014

259 0 0

文章摘要

纽约大学、耶鲁大学和斯坦福大学的研究者们提出了VSI-Bench，这是一个基于视频的基准测试，旨在评估多模态大语言模型（MLLM）在视觉空间智能方面的表现。VSI-Bench包含近290个真实室内场景视频和超过5000个问答对，通过连续的时间性输入来模拟人类观察世界的方式，从而丰富空间理解和推理。

评估结果显示，尽管MLLM展现出一定的视觉空间智能，但与人类相比仍有较大差距。人类评估者的平均准确率达到79%，而最佳模型仅为46%。在配置和时空任务上，人类表现接近完美，而MLLM在需要精确估计的测量任务上差距缩小，展现出相对优势。

研究还发现，空间推理是影响MLLM在VSI-Bench上表现的主要瓶颈。71%的错误源于空间推理，尤其是在理解距离、大小和方向方面。此外，语言提示技术在这种情况下反而有害，而MLLM在记忆空间时会形成一系列局部世界模型，而非统一的全局模型。

这项名为”Thinking in Space”的研究，由斯坦福大学教授李飞飞等人领导，旨在评估MLLM在空间推理方面的表现，这对人类智能至关重要。研究者们期待到2025年，AI领域能在空间智能方面取得更多突破。

原文和模型

【原文链接】 阅读原文 [ 2126字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # 视频生成 # AI研究 # 人类智能 # 多模态模型 # 空间推理 # 视觉空间智能

文章版权归作者所有，未经允许请勿转载。

Scaling Law或将终结？哈佛MIT预警：低精度量化已无路可走，重磅研究掀翻AI圈

新智元

472

超强实体ChatGPT机器人：语音推理、视觉识别，“终结者”来啦！

AIGC开放社区

1,105

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题

量子位

1,269

杨立昆：目标驱动AI才是未来

AI大模型实验室

1,110

Sora负责人与谢赛宁「隔空对话」，LLM先锋集结中国最硬核AI内行盛会！智源大模型全家桶亮相

新智元

1,271

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

机器之心

1,251

暂无评论

暂无评论...

李飞飞、谢赛宁等探索MLLM「视觉空间智能」，网友：2025有盼头了

文章摘要

原文和模型

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

中国首次！高文院士获得 IEEE 社会基础设施创新奖

相关文章

暂无评论

热门网址

热门文章

李飞飞、谢赛宁等探索MLLM「视觉空间智能」，网友：2025有盼头了

文章摘要

原文和模型

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

中国首次！高文院士获得 IEEE 社会基础设施创新奖

相关文章

暂无评论

极客训练营-扫码领取免费材料

白日梦AI-视频创作

豆包MarsCode

热门网址

热门文章