阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈

AIGC动态7小时前发布 aitechtalk
68 0 0
阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈

 

文章摘要


【关 键 词】 视觉导航语言动作具身

视觉语言导航(VLN)和视觉-语言-动作(VLA)是近年来具身智能领域的重要研究方向。2018年,吴琦与Peter Anderson、Abhishek Das首次将视觉-语言(VL)与机器人导航结合,提出了VLN的概念,并在CVPR 2018上发表了相关研究。随后,他们在ACL会议上进一步探讨了视觉、语言与动作的结合,正式开启了VLA领域的研究。吴琦提出的“V3A”概念,即视觉(Vision)、提问(Ask)、回答(Answer)和行动(Act),强调了机器人在理解多模态信息后,还需与真实环境进行交互以解决实际问题。

VLN的研究不仅推动了视觉导航技术的发展,还为具身智能提供了新的研究方向。吴琦指出,VLN的难点在于处理动态场景和临时性任务,例如在室内环境中,机器人需要根据实时视觉信息和语言指令进行导航,而传统的基于地图的导航方法在动态场景中往往失效。为了解决这一问题,吴琦团队提出了“Obstructed VLN”数据集,专注于路径遮挡情况下的临时性导航调整。

VLA的发展经历了多个关键阶段。最初,VLN的研究主要集中在视觉和语言的结合,而随着GPT系列模型的出现,视觉语言模型的能力得到了显著提升,研究者开始将视觉语言与动作结合,探索更高层次的具身智能任务。吴琦认为,VLA的核心价值在于为机器人提供了一种更自然的人机交互方式,能够实时响应非预定义的动态需求。

在具身智能领域,导航任务的重要性不容忽视。尽管许多人认为导航问题已被解决,但吴琦指出,室内导航仍面临诸多挑战,尤其是在动态环境中,机器人需要具备实时调整路径的能力。此外,VLA中的动作不仅限于上半身的操作任务,还包括下半身的移动任务,这为具身智能的全面发展提供了新的视角。

数据问题是VLN和VLA领域面临的主要瓶颈之一。吴琦强调,构建大规模、高质量的3D环境数据集是推动VLA技术发展的关键。目前,研究者主要通过模拟器生成数据、真人操控采集和视频数据驱动三种技术路径来解决数据问题。其中,模拟器的进步为数据生成提供了重要支持,但如何弥合模拟与真实环境之间的差距(Sim2Real Gap)仍是亟待解决的难题。

在工程部署方面,VLA任务涉及复杂的推理和模型计算,如何在机器人终端实现高效的模型压缩和算力平衡是技术落地的关键挑战。吴琦认为,硬件公司应发挥更大的作用,提供易用的部署工具,推动整个生态的发展。

总体而言,VLN和VLA的研究为具身智能提供了新的技术路径和应用场景。尽管面临数据、Sim2Real Gap和工程部署等多重挑战,但随着模拟器技术的进步和大规模数据集的构建,这些难题有望逐步得到解决。吴琦的研究不仅推动了VLN和VLA领域的发展,还为具身智能的落地应用提供了重要的理论支持。

原文和模型


【原文链接】 阅读原文 [ 6201字 | 25分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...