
文章摘要
【关 键 词】 RoboBallet、图神经网络、强化学习、多机器人协作、轨迹规划
RoboBallet是由DeepMind、Intrinsic AI和UCL等研究机构共同提出的成果,发表在Science子刊Science Robotics上。这一成果创新性地将图神经网络(GNN)用于强化学习,解决多机器人协作运动规划中的复杂问题。
核心方法与解决问题:RoboBallet把图神经网络与强化学习结合,采用GNN作为策略网络和状态 – 动作价值估计,解决大规模多机器人任务分配、调度和运动规划的联合问题,实现高质量轨迹规划。现代自动化制造中,让多个机器人在共享空间无碰撞高效协作面临任务分配、调度和运动规划三个复杂子问题,传统算法难以计算可行解,工业界依赖人工规划。RoboBallet在随机生成环境中进行任务和运动规划,能为不同环境规划多臂抓取轨迹。
具体实现方式:在数据表示层面,将整个场景建模为图结构,节点代表机器人、任务和障碍物,边表示实体间关系。使用GNN作为策略网络,以观测图为输入,为机器人生成指令关节速度。在策略学习和评估阶段,微调TD3算法训练策略网络,将昂贵的在线计算转移到离线训练阶段,并采用Hindsight Experience Replay方法解决稀疏奖励问题。
实验验证及结果:使用Franka Panda的七自由度机械臂在模拟环境训练,在包含4(8)个机器人、40个任务和30个障碍物的模拟工作单元中测试并与RRT – Connect方法比较,且只需一块GPU完成。实验表明,RoboBallet在训练时间扩展性上,任务数量增加四倍,收敛所需训练步数仅略有增加;规划速度快,最大场景每个规划步在NVIDIA A100上约0.3毫秒,能实现10 Hz时间步下超300倍实时规划速度;多智能体协同方面,机器人数量从4个增加到8个,平均执行时间减少约60%;泛化性好,可零样本迁移到新环境。
应用能力:RoboBallet的高速和可扩展性使其具备工作单元布局优化、容错规划和基于在线感知的重新规划等新能力,如将任务执行时间缩短33%。
原文和模型
【原文链接】 阅读原文 [ 1535字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★☆☆