CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

AIGC动态1年前 (2024)发布 almosthuman2014

1,842 0 0

文章摘要

随着大型语言模型（LLMs）在计算机视觉领域的成功，研究者们对于图像分割基础模型的探索日益增加。

Segment Anything Model（SAM）作为一个先进的图像分割基础模型，尽管在多个下游任务上表现出色，但在医学图像、伪装物体等领域的泛化能力和鲁棒性仍有待提高。这些问题往往源于训练数据集与下游测试数据集之间的域差异。

为了解决这一问题，研究者们提出了一种新的域适应策略，该策略不依赖于源数据集，通过弱监督自训练架构来适应SAM。这种方法包括锚点正则化和低秩微调，旨在提高自适应的鲁棒性和计算效率。通过无源域的自训练策略，研究者们使用冻结的源模型作为锚定网络，以规范模型的更新，并通过低秩权重分解来减少内存成本。此外，通过引入弱监督，如稀疏点注释，可以提供更强的域适应信息，从而进一步提高自适应效果。

SAM模型由图像编码器、提示编码器和解码器三部分组成。在自适应框架中，使用了student-teacher架构进行自训练，其中学生和教师模型共享权重。自训练的过程包括使用教师模型产生的预测结果作为伪标签，以及通过锚点损失和对比损失来正则化模型更新。此外，研究者们还提出了一种低秩权重更新方法，以有效且低成本地更新编码器网络。

在实验部分，研究者们对五种不同类型的下游分割任务进行了评估，包括清晰的自然图像、添加干扰的自然图像、医学图像、伪装物体和机器人图像。实验结果表明，所提出的域适应方法在多个下游任务上的性能均优于预训练的SAM和其他先进的域适应方案。此外，研究者们还进行了消融实验和额外分析，以验证各个组件的有效性。

总结来说，这项研究提出了一种新的域适应策略，通过弱监督自训练架构来提高SAM在多样化下游任务中的泛化能力和鲁棒性。这种方法无需访问源数据集，内存成本低，且与弱监督自然兼容，为图像分割领域提供了一种新的解决方案。