谷歌让机器人「长脑子」了!首发离线具身VLA模型,断网精准操控

AIGC动态5小时前发布 AIera
27 0 0
谷歌让机器人「长脑子」了!首发离线具身VLA模型,断网精准操控

 

文章摘要


【关 键 词】 具身智能离线模型多模态机器人本地运行

谷歌发布了首个在具身机器人上本地离线运行的VLA模型——Gemini Robotics On-Device,标志着具身智能迈向实用化新阶段。该模型最初为ALOHA机器人训练,经过调整后能在双臂Franka FR3机器人及Apollo人形机器人上运行。Gemini Robotics On-Device无需网络即可运行,适用于对延迟敏感的应用场景,确保在网络连接间歇或无连接的环境中依然性能稳定。这一模型被称为“机器人的大脑”,旨在让机器人理解复杂环境、执行精细任务,并适配各种形态。

Gemini Robotics是谷歌3月份推出的VLA系列模型,重点是将多模态大模型的能力带到现实世界。Gemini Robotics On-Device专为在机器人设备本地运行而优化,基于Gemini 2.0研发,具备多项与机器人相关的重要能力,如语义安全理解和长上下文信息处理。通过专门的机器人训练和专项优化,Gemini Robotics模型展现出多种面向机器人的能力,包括生成灵巧且具有反应性的动作,迅速适应不同机器人形态,并利用先进的视觉空间推理能力指导行为。

在功能与性能方面,Gemini Robotics On-Device是一款面向双臂机器人的基础模型,设计目的是仅需最低限度的计算资源就能让机器人具备智能。该模型专为快速实验灵巧操作而设计,可通过微调适应新任务,优化用于本地运行,实现低延迟推理。在多种测试场景中,模型展现出强大的视觉、语义和行为泛化能力,能够遵循自然语言指令,完成如解开袋子或折叠衣物等高度灵巧的任务。尽管在测试中发现一些小瑕疵,如左机械臂在固定袋子上不够稳定,但整体性能仍表现出色。

谷歌还开源了Gemini Robotics SDK,帮助开发者评估模型在其他任务和环境中的表现。尽管许多任务可以直接开箱即用,开发者也可选择对模型进行适配,以在特定应用中实现更佳性能。在七个不同难度级别的灵巧操作任务中,模型表现远超目前最好的设备端模型。此外,谷歌将模型适配到不同机器人实体上,如双臂Franka机器人和Apollo人形机器人,展示了其通用指令跟随和灵巧操作能力。

Gemini Robotics的能力来源于Gemini 2.0,后者在具身推理方面表现出色,能够识别二维中的物体和关键点,利用二维指点操作进行抓取和轨迹规划,并在三维空间中进行关键点对应和物体识别。Gemini Robotics-ER利用Gemini 2.0的二维指点能力,预测从上往下的抓取方式,并通过关联不同视角下的二维点理解三维场景。Gemini 2.0还能直接预测开放词汇的三维物体边界框,进一步增强了模型的具身推理能力。

Gemini Robotics将多模态大模型赋能具身智能,打破虚拟与现实的界限,而Gemini Robotics On-Device更进一步,实现了具身智能的完全离线运行。这一系列技术突破,预示着人机携手共进的新时代已悄然来临。

原文和模型


【原文链接】 阅读原文 [ 1591字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...