端到端 VLA 并非唯一解:分层推理的具身基础模型 RoBridge 破解机器人「知行合一」难题

文章摘要
【关 键 词】 机器人、训练成本、操作鲁棒性、分层推理、具身模型
RoBridge是一种分层推理的具身基础模型,旨在解决机器人操作技术中的两大核心问题:高昂的训练成本和认知与执行的割裂。传统端到端视觉语言动作(VLA)模型虽然能够实现指令理解与动作输出的直接映射,但其训练成本极高,通常需要数十张GPU数周的训练时间,且在面对环境变化时性能显著下降。RoBridge通过创新设计的分层结构,将认知规划与物理执行解耦,显著降低了训练成本,仅需单张A100训练一天即可突破技术瓶颈。
RoBridge的架构由三个核心模块组成:高级认知规划器(HCP)、不变可操作表示(IOR)和通用具身代理(GEA)。HCP负责任务语义解析,将复杂任务分解为多个原子动作;IOR构建符号化中间层,有效降低环境变化对模型的影响;GEA负责物理执行,通过闭环控制进行调节。实验表明,RoBridge在零样本泛化测试中达到了75%的新任务成功率,仅需5个真实样本即可实现模拟到现实的泛化成功率(83%),相比RDT、π0等基线模型提升了超过40%。
在训练过程中,RoBridge采用了强化学习、模仿学习和持续技能聚合三个阶段。强化学习阶段为每个任务训练专家策略,引入机械臂位姿、物体形状和相机偏移等领域的随机化以提升鲁棒性;模仿学习阶段基于专家数据训练通用策略,新增深度图和掩膜增强;持续技能聚合采用改进的DAgger算法,动态调整任务采样频率,优先采集困难任务。
在真实场景和仿真基准测试中,RoBridge表现卓越。在Metaworld基准测试中,RoBridge平均成功率达到82.12%,较最优基线提升11.28%;在真实任务中,平均成功率为83.3%,长时程任务平均完成阶段数为3.0。此外,RoBridge在零样本任务泛化测试中展现出优异的迁移能力,平均成功率为75%。
RoBridge通过分离高层语义理解与底层物理控制,将VLM的开放场景认知优势与强化学习的精确操作能力深度融合,创新引入IOR作为符号化中间层,有效解决传统模型因跨模态特征错位导致的“脑手不一”问题。该架构在显著降低训练成本的同时,显著提升开放式任务的操作鲁棒性,为破解机器人“知行合一”难题提供了可扩展的技术路径。
原文和模型
【原文链接】 阅读原文 [ 2391字 | 10分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★