标签:空间推理
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
纽约大学、耶鲁大学和斯坦福大学的研究者们提出了VSI-Bench,这是一个基于视频的基准测试,旨在评估多模态大语言模型(MLLM)在视觉空间智能方面的表现。VSI-...
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
这篇新智元报道介绍了一种名为3D-VLA(3D视觉-语言-动作)的新型生成式视觉-语言-行动模型,该模型在多项任务中显著提高了推理、多模态生成和规划的能力。与...