ICLR 2024 Spotlight|厦门大学、Intel、大疆联合出品,从网络视频中学习零样本图像匹配大模型
模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 图像匹配、深度学习、泛化性能、互联网视频、多视图重建
摘要:
图像匹配是计算机视觉中的关键任务,对于三维重建、视觉定位等应用至关重要。传统算法如SIFT在复杂场景下表现有限,而基于深度学习的模型受限于特定场景训练,难以泛化。厦门大学、Intel和大疆的研究者提出了GIM框架,旨在通过互联网视频提升匹配模型的泛化能力。GIM从视频中提取监督信号,适用于各种匹配模型,且训练视频时长越长,模型性能越高。研究者还提出了Zero-shot Evaluation Benchmark(ZEB)来评估模型泛化性能,结果显示GIM显著提升了性能。此外,GIM在下游任务中也表现出色,如重定位和多视图重建。GIM框架利用视频帧的连续性,通过时序关系传递匹配,增强数据多样性。GIM的提出受到大模型如GPT的启发,展示了海量视频数据训练的潜力。
详细摘要:
图像匹配在计算机视觉领域扮演着基础角色,对于多种视觉应用如三维重建、视觉定位和神经渲染等至关重要。然而,传统算法在面对长基线或极端天气等复杂场景时,其精确度和密度受限。近年来,基于深度学习的匹配模型因其潜力而受到关注,但受限于训练数据的规模和多样性,这些模型通常只能在特定场景下表现良好。为了解决这一问题,研究者提出了GIM(Generalizable Image Matcher),一个从互联网视频中学习的训练框架,旨在提升匹配模型的泛化能力。
GIM框架能够从互联网视频中提取有效的监督信号,这些视频种类繁多且几乎无限。研究表明,训练视频的时长与匹配模型性能呈正相关,且在50小时的视频训练后,性能仍在提升。为了评估泛化性能,研究者提出了ZEB,一个包含12个公开数据集、约4.6万对测试图片的评估基准。GIM在ZEB上的评估结果显示,经过GIM训练的模型在多个测试序列中表现出色,尤其是在GL3、BLE和GTA序列中,其性能远超传统算法RootSIFT。
GIM框架的方法简洁而有效。首先,准备一个匹配模型和互联网视频。然后,使用标准训练数据训练模型,并在视频中的短距离帧上进行匹配,获取密集匹配结果。接着,利用视频的时序关系,将匹配传递到更远的帧上,形成宽基线的训练图像对。最后,对这些图像对进行数据增强并训练。
GIM的应用不仅限于图像匹配,还能显著提升下游任务的性能,如单应性矩阵估计、室内和室外重定位任务。在多视图重建中,GIM替换COLMAP的匹配方法后,重建效果显著提升,增强了COLMAP的鲁棒性。此外,GIM还能处理训练中未见过的点云鸟瞰图匹配任务。
GIM的提出受到大模型如GPT的启发,展示了通过海量视频数据训练匹配模型的潜力。研究者鼓励大家访问GIM的主页,了解更多信息,体验GIM的匹配效果。
原文信息
【原文链接】 阅读原文
【阅读预估】 1916 / 8分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台