机器人版的「斯坦福小镇」来了,专为具身智能研究打造
文章摘要
【关 键 词】 虚拟小镇、机器人研究、社交互动、智能评估、数据平台
上海人工智能实验室OpenRobotLab等机构的研究者创建了一个名为GRUtopia的虚拟小镇,旨在解决具身智能领域数据稀缺的问题。这个虚拟环境是首个专为各种机器人设计的模拟互动3D社会,包含10万个交互式场景和89种不同的场景类别。项目主要包括:
1. 场景数据集GRScenes:包含10万个交互式、精细注释的场景,可自由组合成城市规模的环境。与以往主要关注家庭的工作不同,GRScenes涵盖了89种不同的场景类别,弥补了服务型环境的空白。
2. GRResidents:这是一个大型语言模型(LLM)驱动的非玩家角色(NPC)系统,负责社交互动、任务生成和任务分配,从而模拟具身AI应用的社交场景。
3. 基准GRBench:支持各种机器人,但侧重于作为主要智能体的有腿机器人,并提出了涉及物体定位导航、社交定位导航和定位操纵的中等难度任务。
GRUtopia的构建包括以下几个关键步骤:
1. 收集约10万个高质量的合成场景,进行清理、语义注释,并组合成城镇,作为机器人的基本游乐场。
2. 对场景中的3D物体进行修改,创建完整的物体,使它们能够以物理上可信的方式进行交互,并为所有物体的交互部件附加细粒度部件标签。
3. 对场景和对象进行语言注释,考虑不同粒度的场景元素,如对象与区域的关系,并设计用户界面进行区域注释。
4. 构建世界知识管理器(WKM),用于管理虚拟环境知识,并向NPC提供高级场景知识。WKM从数据集和模拟器后台获取分层注释和场景知识,构建场景图作为场景表示。
5. 设计基于LLM的规划器,由存储模块、LLM程序员和LLM发言器组成,用于NPC的决策过程。
作者在GRUtopia中进行了对象指代、语言grounding和以对象为中心的QA等方面的实验,验证了NPC框架在不同LLM中的准确性。此外,GRBench作为一个评估具身智能体的基准,包括物体定位导航、社交定位导航和定位操作三个基准,用于评估机器人智能体处理日常任务的能力。
定量评估结果表明,使用大型模型作为后端的智能体框架在所有三个基准测试中都表现出更好的整体性能。定性评估结果展示了LLM智能体在社交定位导航任务中与NPC互动的过程,证明了NPC能够为研究人与机器人的互动和协作提供自然的社会互动。
GRUtopia的构建为具身AI研究提供了一个高质量的数据平台,缓解了数据稀缺的问题,并为具身智能体的评估提供了更全面的基准。这项工作有望推动具身智能领域的发展。
原文和模型
【原文链接】 阅读原文 [ 3465字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆