文章介绍了来自华中科技大学和字节跳动的研究团队提出的基础模型 GLEE,该模型能够一次性解决图像和视频中的几乎所有目标感知任务。GLEE支持根据任意开放词表、目标的外观位置描述和多种交互方式进行目标检测、分割、跟踪,并在保持最先进性能的同时实现全能性。该模型还构建了统一优化目标的训练框架,从超过一千万的多源数据中汲取知识,实现对新数据和任务的零样本迁移,并验证了多种数据之间相互促进的能力。GLEE的模型和训练代码已全部开源。
GLEE可以解决开放世界的目标检测、实例分割、文本描述的指代检测与分割以及交互式分割等任务。通过在超大规模的图像数据上进行训练,GLEE学习到了更加有判别性的目标特征,可以实现高质量的跟踪,将其能力扩展到视频任务上,包括视频实例分割、视频目标分割、参考视频实例分割以及交互式的视频目标分割跟踪。
GLEE使用了来自16个数据集的超过一千万图片数据进行训练,充分利用了现有的标注数据和低成本的自动标注数据构建了多样化的训练集。模型包括图像编码器、文本编码器、视觉提示器和目标检测器,能够处理与任务相关的任意描述,并根据文本和视觉输入从图像中提取对象。
研究展示了GLEE模型在目标感知任务上的全能性和泛化能力,可以直接应用于各种以目标为中心的任务,同时保持最先进的性能,无需微调。在一些开放词汇表的视频任务中,GLEE展现了零样本泛化能力,在未经过训练和微调的情况下取得了最先进的性能。作为基础模型,GLEE的表示具有多功能性,在为其他模型服务时也表现出有效性。