真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!

AIGC动态2天前发布 AIera
187 0 0
真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!

 

文章摘要


【关 键 词】 机器人技术仿真数据泛化能力智能抓取数据集规模

银河通用机器人发布了全球首个端到端具身抓取基础大模型GraspVLA,这是一个完全基于仿真合成大数据预训练的具身大模型,展现出比OpenVLA、π0、RT-2、RDT等模型更全面的泛化性和真实场景实用潜力。GraspVLA的发布伴随着七大泛化“金标准”,包括光照、干扰物、平面位置、高度、背景、物体类别泛化和闭环能力。这些标准覆盖了Vision、Language、Action的不同分层,标志着具身大模型发展新范式的开启。

GraspVLA团队强调,模型的成功不仅在于任务的完成,更在于在何种条件下能够成功。团队对GraspVLA模型进行了全面的泛化能力评测,包括在极端光照条件下的抓取任务、不同背景环境下的适应性、平面上任意位置目标物体的抓取、不同高度的物体抓取、动态干扰下的抓取能力、闭环动作输出以及零样本Sim2Real抓取新物体的能力。

GraspVLA展现了基座大模型的属性,能够通过少样本迅速对齐用户新需求。在商超、工厂、家庭三个场景中,GraspVLA展现了快速学习能力和对后训练分布外情形的泛化性。银河通用的研发团队展示了GraspVLA在认识行业专用特殊零件、对齐人类偏好等方面的能力,证明了其在新场景中的直接部署能力和针对用户新需求的快速调整能力。

英伟达期望看到能够托举起未来世界的人形机器人,而GraspVLA的发布可能预示着大规模仿真合成数据预训练将取代现有的高成本人工采集方案,带领具身大模型的发展进入新的时代。银河通用的团队通过全仿真合成数据生产管线,生成了全球规模最大的十亿级机器人操作数据集,极大降低了数据生产的成本,提高了数据对各种场景的覆盖率。这一路线的全方位优越性可能将改变业界对仿真合成路线的看法,开创合成大数据驱动的VLA预训练新范式。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3389字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...