ICLR 2024 Spotlight｜厦门大学、Intel、大疆联合出品，从网络视频中学习零样本图像匹配大模型

AIGC动态1年前 (2024)发布 almosthuman2014

3,003 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

摘要：
图像匹配是计算机视觉中的关键任务，对于三维重建、视觉定位等应用至关重要。传统算法如SIFT在复杂场景下表现有限，而基于深度学习的模型受限于特定场景训练，难以泛化。厦门大学、Intel和大疆的研究者提出了GIM框架，旨在通过互联网视频提升匹配模型的泛化能力。GIM从视频中提取监督信号，适用于各种匹配模型，且训练视频时长越长，模型性能越高。研究者还提出了Zero-shot Evaluation Benchmark（ZEB）来评估模型泛化性能，结果显示GIM显著提升了性能。此外，GIM在下游任务中也表现出色，如重定位和多视图重建。GIM框架利用视频帧的连续性，通过时序关系传递匹配，增强数据多样性。GIM的提出受到大模型如GPT的启发，展示了海量视频数据训练的潜力。

详细摘要：
图像匹配在计算机视觉领域扮演着基础角色，对于多种视觉应用如三维重建、视觉定位和神经渲染等至关重要。然而，传统算法在面对长基线或极端天气等复杂场景时，其精确度和密度受限。近年来，基于深度学习的匹配模型因其潜力而受到关注，但受限于训练数据的规模和多样性，这些模型通常只能在特定场景下表现良好。为了解决这一问题，研究者提出了GIM（Generalizable Image Matcher），一个从互联网视频中学习的训练框架，旨在提升匹配模型的泛化能力。

GIM框架能够从互联网视频中提取有效的监督信号，这些视频种类繁多且几乎无限。研究表明，训练视频的时长与匹配模型性能呈正相关，且在50小时的视频训练后，性能仍在提升。为了评估泛化性能，研究者提出了ZEB，一个包含12个公开数据集、约4.6万对测试图片的评估基准。GIM在ZEB上的评估结果显示，经过GIM训练的模型在多个测试序列中表现出色，尤其是在GL3、BLE和GTA序列中，其性能远超传统算法RootSIFT。

GIM框架的方法简洁而有效。首先，准备一个匹配模型和互联网视频。然后，使用标准训练数据训练模型，并在视频中的短距离帧上进行匹配，获取密集匹配结果。接着，利用视频的时序关系，将匹配传递到更远的帧上，形成宽基线的训练图像对。最后，对这些图像对进行数据增强并训练。

GIM的应用不仅限于图像匹配，还能显著提升下游任务的性能，如单应性矩阵估计、室内和室外重定位任务。在多视图重建中，GIM替换COLMAP的匹配方法后，重建效果显著提升，增强了COLMAP的鲁棒性。此外，GIM还能处理训练中未见过的点云鸟瞰图匹配任务。

GIM的提出受到大模型如GPT的启发，展示了通过海量视频数据训练匹配模型的潜力。研究者鼓励大家访问GIM的主页，了解更多信息，体验GIM的匹配效果。