一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

AIGC动态1年前 (2024)发布 almosthuman2014

2,648 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

文章摘要

本文介绍了清华大学叉院高阳教授机器人研究团队最新提出的具身智能框架CoPa（Robotic Manipulation through Spatial Constraints of Parts），该框架利用视觉语言大模型（VLMs）的创新使用，实现了多场景、长程任务、复杂3D行为的泛化能力。CoPa能够在开放场景中处理复杂指令，展现出对场景中物体的物理属性具备细致的理解，以及精确的规划与操作能力。CoPa可以帮助完成各种任务，如制作手冲咖啡、安排浪漫约会等。CoPa的算法流程主要包括任务导向的抓取模块和任务相关的运动规划模块，通过部分级理解和空间限制生成等模块实现对场景中物体的精细理解和操作。实验结果表明，CoPa在现实世界操作任务中展现了极强的泛化能力，对场景中物体的物理属性具有深入的理解。消融实验验证了CoPa框架中基础模型、由粗到细的部分检测和空间限制生成三个组成部分的重要性。实验结果表明，这些组成部分对CoPa的成功发挥起着关键作用。总体而言，CoPa框架为具身智能领域的发展带来了新的思路和方法，展现出了强大的潜力和应用前景。