斯坦福团队新作：喊话就能指导机器人，任务成功率暴增，网友：特斯拉搞快点

AIGC动态2年前 (2024)发布 QbitAI

4,660 0 0

文章摘要

【关键词】 机器人学习、即时调整、自我改进、语言指令、任务成功率

斯坦福大学的ALOHA家务机器人团队最近发布了一项名为Yell At Your Robot（简称YAY）的研究成果，这项技术允许机器人通过人类的口头指令来动态提升动作水平、即时调整策略，并根据反馈持续自我改进。

这意味着，当机器人在执行任务时出现错误或不理想的动作，人类可以通过简单的喊话来纠正机器人的行为，而这些纠正的指令还会被系统记录下来，用于提高机器人的后续表现。

YAY技术的应用使得机器人在执行如物品装袋、水果混合和洗盘子等复杂任务时的成功率有了显著提升。这些任务通常需要机器人的两只手分别完成不同的动作，例如在装袋任务中，机器人需要准确地定位目标位置并完成指令，同时还要处理软性物体如海绵。

通过人类的喊话指令，机器人能够实时调整动作，解决如海绵掉落、袋子口卡住等问题，并且能够根据指令调整任务细节，如减少装糖的量。这些指令不仅能纠正错误，还能作为微调的依据，进一步提升机器人的表现。

统计数据显示，经过这种微调后，机器人的平均任务成功率提高了20%，并且这种指令-微调过程可以迭代进行，以持续提升机器人的性能。

YAY系统的架构主要由高级策略和低级策略两个部分组成。高级策略负责生成指导低级策略的语言指令，而低级策略则执行具体动作。高级策略将视觉信息编码，并结合相关知识，由Transformer生成包含当前动作描述和未来动作预测的指令。低级策略接收到语言指令后，解析关键词，并映射到机器人关节的目标位置或运动轨迹。

系统还引入了实时的语言纠正机制，人类的口头命令优先级最高，经识别后直接传递给低级策略执行。同时，命令会被记录并用于微调高级策略，通过学习人类提供的纠正性反馈，逐渐减少对即时口头纠正的依赖，提高长期任务的自主成功率。

即使在完成基础训练并已部署到真实环境中，系统仍然可以继续收集指令信息，不断地从反馈中学习并进行自我改进。

本项目的第一作者是斯坦福大学的学生研究员Lucy X. Shi，她的研究成果得到了业界的认可，并且她的导师Chelsea Finn也是该领域的知名学者。ALOHA团队的其他研究人员，包括Tony Z. Zhao和Sergey Levine等，也对本研究做出了贡献。这项研究的论文已经发布在预印本网站arXiv上，供学术界参考。