机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验

机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验

 

文章摘要


【关 键 词】 机械臂多模态行为模型扩散策略具身智能

机械臂技术正从单一抓取任务向复杂自主操作迈进,其核心挑战在于感知、理解与动作控制的高效协同。近年来,视觉-语言-动作(VLA)模型的发展使机器人能够整合图像、指令等多模态信息,但通用化能力仍受限。丰田研究院(TRI)团队提出的大型行为模型(LBM)通过扩散策略框架实现了突破性进展,该模型在近1,700小时机器人数据上训练,完成超过47,000次仿真和1,800次真实世界测试,展现出处理复杂任务的潜力。

LBM架构基于Diffusion Transformer设计,融合视觉、语言及本体感知输入,输出16步动作序列。研究团队构建了混合数据集,包含双臂机器人遥操作数据、模拟环境数据及开源数据集Open X-Embodiment。实验表明,预训练的LBM在”已见任务”中成功率比单任务模型高3-5倍,且对分布偏移更具鲁棒性;在”未见任务”中,微调后的LBM仅需30%任务数据即可达到基线模型性能。

评估体系采用成功率与任务完成度双指标,后者通过里程碑式打分量表实现精细化测量。关键发现显示,预训练数据规模与性能呈正相关:即便使用数百小时数据,模型也能持续提升。在布置餐桌等复杂任务中,LBM展现出显著优于传统方法的动作连贯性和纠错能力。麻省理工学院教授Russ Tedrake强调,该研究通过严格盲测验证了多任务预训练的核心价值,为机器人通用化发展提供了实证基础。

研究还揭示了数据效率的突破性进展:在远未达到”互联网级”数据规模时,模型已显现性能增益。这种早期收益预示着通过数据自举实现能力跃迁的可能性。论文详细披露了Franka Panda FR3双臂平台的测试细节,包括6摄像头配置及Drake仿真环境,其方法论严谨性获得学界高度评价。随着LBM在更多场景的验证,机器人领域的”GPT时刻”或将加速到来,但当前仍需解决跨模态对齐、长周期任务规划等核心问题。

原文和模型


【原文链接】 阅读原文 [ 3015字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...