谷歌让机器人「长脑子」了！首发离线具身VLA模型，断网精准操控

954 0 0

文章摘要

谷歌发布了首个在具身机器人上本地离线运行的VLA模型——Gemini Robotics On-Device，标志着具身智能迈向实用化新阶段。该模型最初为ALOHA机器人训练，经过调整后能在双臂Franka FR3机器人及Apollo人形机器人上运行。Gemini Robotics On-Device无需网络即可运行，适用于对延迟敏感的应用场景，确保在网络连接间歇或无连接的环境中依然性能稳定。这一模型被称为“机器人的大脑”，旨在让机器人理解复杂环境、执行精细任务，并适配各种形态。

Gemini Robotics是谷歌3月份推出的VLA系列模型，重点是将多模态大模型的能力带到现实世界。Gemini Robotics On-Device专为在机器人设备本地运行而优化，基于Gemini 2.0研发，具备多项与机器人相关的重要能力，如语义安全理解和长上下文信息处理。通过专门的机器人训练和专项优化，Gemini Robotics模型展现出多种面向机器人的能力，包括生成灵巧且具有反应性的动作，迅速适应不同机器人形态，并利用先进的视觉空间推理能力指导行为。

在功能与性能方面，Gemini Robotics On-Device是一款面向双臂机器人的基础模型，设计目的是仅需最低限度的计算资源就能让机器人具备智能。该模型专为快速实验灵巧操作而设计，可通过微调适应新任务，优化用于本地运行，实现低延迟推理。在多种测试场景中，模型展现出强大的视觉、语义和行为泛化能力，能够遵循自然语言指令，完成如解开袋子或折叠衣物等高度灵巧的任务。尽管在测试中发现一些小瑕疵，如左机械臂在固定袋子上不够稳定，但整体性能仍表现出色。

谷歌还开源了Gemini Robotics SDK，帮助开发者评估模型在其他任务和环境中的表现。尽管许多任务可以直接开箱即用，开发者也可选择对模型进行适配，以在特定应用中实现更佳性能。在七个不同难度级别的灵巧操作任务中，模型表现远超目前最好的设备端模型。此外，谷歌将模型适配到不同机器人实体上，如双臂Franka机器人和Apollo人形机器人，展示了其通用指令跟随和灵巧操作能力。

Gemini Robotics的能力来源于Gemini 2.0，后者在具身推理方面表现出色，能够识别二维中的物体和关键点，利用二维指点操作进行抓取和轨迹规划，并在三维空间中进行关键点对应和物体识别。Gemini Robotics-ER利用Gemini 2.0的二维指点能力，预测从上往下的抓取方式，并通过关联不同视角下的二维点理解三维场景。Gemini 2.0还能直接预测开放词汇的三维物体边界框，进一步增强了模型的具身推理能力。

Gemini Robotics将多模态大模型赋能具身智能，打破虚拟与现实的界限，而Gemini Robotics On-Device更进一步，实现了具身智能的完全离线运行。这一系列技术突破，预示着人机携手共进的新时代已悄然来临。