智源学者仉尚航:具身基础模型最终状态可能是「4D世界模型」丨具身先锋十人谈

智源学者仉尚航:具身基础模型最终状态可能是「4D世界模型」丨具身先锋十人谈

 

文章摘要


【关 键 词】 具身智能多模态大模型泛化能力数据采集

具身多模态大模型作为新兴的创业机会,正受到业界的广泛关注。北京智源人工智能研究院在具身智能领域展示了多项研究成果,特别是仉尚航领导的研究中心,致力于构建面向具身智能的多模态大模型与大数据,以实现跨本体、跨场景、跨任务的泛化能力。仉尚航本人在具身智能与多模态大模型领域拥有丰富的研究经验,其工作获得了国际认可。

具身智能基础模型的发展呈现出两条技术路线:一是针对原子任务的端到端多模态大模型,二是针对复杂长程任务的分层大模型。仉尚航及其团队设计了快慢系统,以提升机器人的大脑能力,快系统负责直接预测执行器的位姿和动作,慢系统则负责反思和纠错。这一设计理念受到了心理学家丹尼尔·卡尼曼关于人类思考快慢系统的启发。

智源具身多模态大模型研究中心的研究工作聚焦于构建具有类人思考快慢系统的长程闭环框架,研发了一系列具身智能基础模型。这些模型能够进行开放世界泛化物体操作,并基于大脑模型进行语义理解与常识推理,实现零样本物体导航。相关研究已被国际会议NeurIPS 2024、ICML 2024接收。

在端到端大模型方面,仉尚航团队研发了一个具备快速直觉推理和慢速反思纠正能力的模型,能够在执行失败时进行自我纠正,提升模型的泛化性和鲁棒性。在大脑大模型方面,团队研发了一个基于多模态大模型的具身智能大脑大模型,能够处理多种模态信息并输出任务拆解和规划。小脑大模型RoboMamba则展现了高效的推理和动作预测能力。

仉尚航认为,具身智能的多模态大模型需要结合算力、算法和数据三个关键要素。尽管具身大模型展现了泛化能力,但目前由于数据和模型规模的限制,Scaling Law的实现仍需时间。智源具身多模态大模型研究中心在数据收集上采取了独特的方法,包括跨本体的数据采集、构建机器人数据训练场、开发遥操作系统、定制自动标注流程,并形成数据和模型的闭环。

最终,仉尚航提出了四维世界模型Robo4D的概念,将三维空间与时间结合,以解决机器人在开放世界中的任务操作泛化问题。这一模型将作为机器人的基础模拟器,具备时间和空间智能,与真实物理世界进行交互并从中得到反馈。尽管4D世界模型的研究仍处于起步阶段,但智源已取得初步成果,即将投稿至人工智能顶会。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 7335字 | 30分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...