何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式，AI性能暴涨超20%

2,365 0 0

文章摘要

【关键词】 机器人模型、异构预训练、Transformer、通用机器人、迁移学习

异构性是构建通用机器人模型面临的主要挑战之一，因为它要求收集特定于每个机器人、任务和环境的数据，而这些策略往往无法泛化到其他设置。为了解决这一问题，MIT和Meta FAIR团队提出了一种名为异构预训练 Transformer（HPT）的模型。HPT通过预训练一个大型、可共享的神经网络主干来学习与任务和机器人形态无关的共享表示，从而避免了从头开始训练的需要。

研究人员将不同本体的视觉输入对齐到统一的token序列，然后处理这些token以控制不同任务的机器人。实验结果表明，HPT在模拟器基准和真实世界环境中的表现优于多个基准模型，将未见任务微调策略性能提升了20%。这项研究被NeurIPS 2024接收为Spotlight。

HPT模型的核心是构建一个能够对齐来自不同预训练的异质本体感觉和视觉信息的共享策略“语言”，将其信号映射到共享的潜在空间。HPT模型架构采用模块化设计，从异构本体的数据中进行可扩展学习。它使用特定于本体的分词器（stem）来对齐各种传感器输入，映射为固定数量的token，然后送入Transformer结构的共享主干（trunk），将token映射为共享表示并进行预训练。

HPT的stem结构包含本体感受分词器和视觉分词器，将来自不同本体的异构输入映射为固定维度、固定数量的token。trunk是一个有潜在d维空间的Transformer结构，参数量固定，在不同的本体和任务之间共享，以捕获复杂的输入-输出关系。

预训练阶段，模型参数超过1B，包含了超过50个单独的数据源。预训练的目标是最小化数据集中的行为克隆损失。实验表明，HPT随着数据集数量、数据多样性、模型体量和训练计算量呈现出缩放行为。

在迁移学习方面，HPT模型能够迁移到模拟和现实世界中的全新本体、任务和环境中。在模拟环境中，HPT在闭环模拟中测试了下游任务的模型，并观察到使用不同规模的HPT预训练模型的任务成功率。在真实世界中，HPT在面对不同姿势、物体数量、相机配置、光照条件时，表现出更好的泛化能力和鲁棒性。

HPT模型的提出，为处理机器人数据的异构性本质提供了新的视角，为机器人基础模型的发展铺平了道路。