文章摘要
【关 键 词】 机器人学习、即时调整、自我改进、语言指令、任务成功率
斯坦福大学的ALOHA家务机器人团队最近发布了一项名为Yell At Your Robot(简称YAY)的研究成果,这项技术允许机器人通过人类的口头指令来动态提升动作水平、即时调整策略,并根据反馈持续自我改进。
这意味着,当机器人在执行任务时出现错误或不理想的动作,人类可以通过简单的喊话来纠正机器人的行为,而这些纠正的指令还会被系统记录下来,用于提高机器人的后续表现。
YAY技术的应用使得机器人在执行如物品装袋、水果混合和洗盘子等复杂任务时的成功率有了显著提升。这些任务通常需要机器人的两只手分别完成不同的动作,例如在装袋任务中,机器人需要准确地定位目标位置并完成指令,同时还要处理软性物体如海绵。
通过人类的喊话指令,机器人能够实时调整动作,解决如海绵掉落、袋子口卡住等问题,并且能够根据指令调整任务细节,如减少装糖的量。这些指令不仅能纠正错误,还能作为微调的依据,进一步提升机器人的表现。
统计数据显示,经过这种微调后,机器人的平均任务成功率提高了20%,并且这种指令-微调过程可以迭代进行,以持续提升机器人的性能。
YAY系统的架构主要由高级策略和低级策略两个部分组成。高级策略负责生成指导低级策略的语言指令,而低级策略则执行具体动作。高级策略将视觉信息编码,并结合相关知识,由Transformer生成包含当前动作描述和未来动作预测的指令。低级策略接收到语言指令后,解析关键词,并映射到机器人关节的目标位置或运动轨迹。
系统还引入了实时的语言纠正机制,人类的口头命令优先级最高,经识别后直接传递给低级策略执行。同时,命令会被记录并用于微调高级策略,通过学习人类提供的纠正性反馈,逐渐减少对即时口头纠正的依赖,提高长期任务的自主成功率。
即使在完成基础训练并已部署到真实环境中,系统仍然可以继续收集指令信息,不断地从反馈中学习并进行自我改进。
本项目的第一作者是斯坦福大学的学生研究员Lucy X. Shi,她的研究成果得到了业界的认可,并且她的导师Chelsea Finn也是该领域的知名学者。ALOHA团队的其他研究人员,包括Tony Z. Zhao和Sergey Levine等,也对本研究做出了贡献。这项研究的论文已经发布在预印本网站arXiv上,供学术界参考。
原文和模型
【原文链接】 阅读原文 [ 1450字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4
【摘要评分】 ★★★☆☆