JHU 陈杰能：世界模型+心智模型，让具身智能体拥有「想象力」

AIGC动态2年前 (2024)发布 aitechtalk

1,990 0 0

文章摘要

近日，马尔奖得主、约翰霍普金斯大学教授Alan Yuille的团队发布了一项名为GenEx的具身智能领域重要成果，该成果通过模拟人类大脑的认知方式和理解机制，推动了人工智能系统的智能化和灵活性。GenEx系统由想象世界和具身智能体两部分组成，前者能动态生成三维环境，后者与环境相互作用，共同构成一个共生系统，使AI模拟、探索和学习的方式类似于人类认知过程。

GenEx能够基于单张RGB图像生成三维连贯的想象环境，并通过360度全景视频增强其真实感。在GenEx的驱动下，智能体能执行复杂的具身任务，如与目标无关的探索和目标驱动的导航，利用对物理世界中未观测部分的预测性预期来完善认知，并基于潜在决策模拟不同结果，做出更明智的选择。此外，GenEx还能扩展到多智能体场景，实现智能体间的认知更新。

该工作的核心作者陈杰能，是约翰霍普金斯大学即将毕业的中国博士生。他的研究从医学图像转向世界模型和空间智能，致力于基于单张图像生成具备交互功能的3D世界，并构建具身智能体的心智模型，以助力智能体做出更优决策。陈杰能认为，空间智能涉及图片3D建模或视频4D建模，本质上是逆向图形学单张图重建三维结构并提取物体类别、位置和几何等信息。他目前的工作聚焦于空间推演，旨在解决从2D图像中推演3D场景的挑战，这是空间智能的核心。

陈杰能还探讨了心智模型与世界模型的关联，认为心智模型作为一种认知框架，有基于常识的理解，但更重要的是通过已有环境信息推演和想象未观测到的环境部分，以提高决策模型的泛化能力。他提出的“生成式世界探索者”概念，旨在让AI智能体具备类似人类通过想象力探索未知环境的能力，这在具身智能领域尚不热门，但具有重要的研究价值和应用前景。