「通用大脑」来了！MIT何恺明用大模型思维玩出机器人预训练新花样

1,688 0 0

文章摘要

在机器人领域，通用智能的探索正在取得新进展。MIT的何恺明和Lirui Wang等人提出了一种名为“异构预训练Transformers”（HPT）的新架构，旨在解决机器人数据异质性问题，使机器人能够通过通用数据进行训练。传统上，训练机器人需要为不同任务和环境量身采集数据，导致数据采集量大且复杂。HPT架构通过将不同来源的数据对齐到共享“语言”，使得生成式AI模型能够理解这些数据，避免了重复的数据收集，提高了数据利用效率。

HPT架构分为三个模块：Stem、Trunk和Head。Stem部分负责将不同数据转换为标准化令牌序列；Trunk部分通过多重转换和编码操作，将令牌转化为共享潜在表示；Head部分将潜在表示转化为具体动作指令。这种设计使得HPT能够处理视觉数据和传感器采集的原始信号，扩大了数据使用范围。

HPT的预训练和微调方式也有所创新。在预训练阶段，只调整Trunk参数，而Stem和Head部分在微调阶段根据具体任务进行调整。这种预训练和微调方式使得HPT在模拟和实际测试中表现出色，性能比传统训练方式提升了20%以上。

此外，HPT架构还将本体感知作为核心部分，赋予机器人对内部状态的把控力，这对于执行高精度任务尤为重要。研究团队将视觉和本体感知信号作为等同重要的数据源进行通用处理，使机器人以一种“通用智能”的方式理解任务。

目前，研究团队正在探索增加数据多样性，以进一步优化HPT的性能。他们的最终目标是实现“通用机器人大脑”，让用户即插即用，无需繁琐的培训和数据收集，让机器人训练变得简单。