三金，又是中国队！全球机器人视触融合挑战赛揭榜

908 0 0

文章摘要

在2025年ICRA国际会议上，ManiSkill-ViTac视触觉融合挑战赛揭晓了最终结果，全球42支顶尖团队参与了这场激烈的角逐。中国团队表现尤为突出，包揽了三个赛道的金牌，展现了在机器人操控领域的国际领先实力。其中，原力灵机Dexmal团队在「纯触觉操控」和「触觉传感器设计」两个赛道中夺冠，而它石智航则在「视触融合操控」赛道中拔得头筹。这两家公司不仅在技术上取得了突破，还通过天使轮融资获得了巨额资金支持，进一步推动了具身智能技术的发展。

具身智能与传统的AI模式识别和大模型处理有着本质的区别。它要求机器人能够像人类一样感知、思考并与环境进行交互，这不仅需要算法的突破，还涉及硬件设计、场景适配和多模态感知的深度协同。与AI 1.0时代和大模型行业相比，具身智能领域的基准测试相对稀缺且挑战重重，因为它需要模拟复杂的物理交互、开发高精度硬件，并在真实场景中验证算法的鲁棒性。ManiSkill-ViTac挑战赛的设立，正是为了弥补传统视觉主导方案的不足，推动视触觉融合技术的发展。

视觉和触觉的融合对机器人发展至关重要。尽管机器人的运动性能，如灵活的机械臂或灵巧的步伐，往往更受公众关注，但在实际应用中，多模态感知的协同作用决定了机器人的使用价值。尤其是在需要精细操作的场景中，视觉和触觉的协同作用显得尤为重要。然而，当前机器人在处理不规则物体、执行毫米级精度操作或处理柔性材料时，仍存在感知不足的问题。英伟达高级科学家Jim Fan将这一问题称为「物理图灵测试」，并指出当前机器人研究主要依赖视觉感知，但在接触密集场景中，视觉数据容易受到遮挡、光线变化和物体透明度等因素的干扰。

ManiSkill-ViTac挑战赛由清华大学、UCSD、伦敦国王学院等顶尖机构联合主办，旨在通过视触觉融合技术拓展机器人在复杂操作任务中的能力边界。与历届ManiSkill赛事不同，ManiSkill-ViTac不仅提供了触觉物理仿真平台，还搭建了现实世界的测试平台，成为全球首个结合视觉与触觉的公开赛事。这一赛事的意义远超学术竞赛，它为机器人行业提供了从实验室到现实应用的桥梁，推动了触觉-视觉融合算法的进步，并加速了触觉传感器设计的改进。

在纯触觉操作赛道中，原力灵机Dexmal团队通过创新的「双范式学习框架」解决了机器人操控的终极难题。该团队在完全没有视觉辅助的条件下，仅凭触觉完成了高精度的操作任务。通过将专家知识与智能学习相结合，Dexmal团队在仿真测试中将成功率提升了2-3倍，并在真实机器人验证环节中展现了强大的竞争力。在触觉传感器设计赛道中，Dexmal团队通过全链条优化，设计出高性价比的传感器方案，为触觉传感器的规模化应用打开了大门。

触觉信息是物理世界的「原生数据」，对具身智能至关重要。它不仅能让机器人感知物理纹理、力反馈和材料特性，还为机器人与现实世界的深度交互提供了可能。视觉和触觉的融合不仅可以提升机器人对环境的感知鲁棒性，还为跨场景、跨任务的泛化能力奠定了基础。清华大学助理研究员陈睿博士表示，多感知模态融合在机器人领域具有巨大的应用价值，未来计划扩展任务复杂性，推进视觉-触觉-语言多模态大模型的发展。

中国团队在ManiSkill-ViTac 2025中的卓越表现，彰显了其在全球AI和机器人领域的引领地位。原力灵机和它石智航的耀眼表现，展现了中国团队在算法创新、硬件突破、场景落地的全栈实力。他们用三枚金牌向世界证明，中国不仅是AI赛道上的追赶者，更是引领者。随着具身智能技术的不断突破和落地，未来将为工业、医疗、物流等领域的智能化转型注入全新动能，带来不可估量的价值。