JHU 陈杰能:世界模型+心智模型,让具身智能体拥有「想象力」
文章摘要
【关 键 词】 具身智能、人工智能、三维环境、空间智能、认知模型
近日,马尔奖得主、约翰霍普金斯大学教授Alan Yuille的团队发布了一项名为GenEx的具身智能领域重要成果,该成果通过模拟人类大脑的认知方式和理解机制,推动了人工智能系统的智能化和灵活性。GenEx系统由想象世界和具身智能体两部分组成,前者能动态生成三维环境,后者与环境相互作用,共同构成一个共生系统,使AI模拟、探索和学习的方式类似于人类认知过程。
GenEx能够基于单张RGB图像生成三维连贯的想象环境,并通过360度全景视频增强其真实感。在GenEx的驱动下,智能体能执行复杂的具身任务,如与目标无关的探索和目标驱动的导航,利用对物理世界中未观测部分的预测性预期来完善认知,并基于潜在决策模拟不同结果,做出更明智的选择。此外,GenEx还能扩展到多智能体场景,实现智能体间的认知更新。
该工作的核心作者陈杰能,是约翰霍普金斯大学即将毕业的中国博士生。他的研究从医学图像转向世界模型和空间智能,致力于基于单张图像生成具备交互功能的3D世界,并构建具身智能体的心智模型,以助力智能体做出更优决策。陈杰能认为,空间智能涉及图片3D建模或视频4D建模,本质上是逆向图形学单张图重建三维结构并提取物体类别、位置和几何等信息。他目前的工作聚焦于空间推演,旨在解决从2D图像中推演3D场景的挑战,这是空间智能的核心。
陈杰能还探讨了心智模型与世界模型的关联,认为心智模型作为一种认知框架,有基于常识的理解,但更重要的是通过已有环境信息推演和想象未观测到的环境部分,以提高决策模型的泛化能力。他提出的“生成式世界探索者”概念,旨在让AI智能体具备类似人类通过想象力探索未知环境的能力,这在具身智能领域尚不热门,但具有重要的研究价值和应用前景。
原文和模型
【原文链接】 阅读原文 [ 4821字 | 20分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆