
文章摘要
【关 键 词】 多模态、检索模型、数据合成、图像检索、向量模型
智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了BGE系列模型的生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果,其核心优势在于借助大规模合成数据MegaPairs进行训练。MegaPairs结合多模态表征模型、多模态大模型和大语言模型,能够以极低成本持续生成多样化且高质量的多模态三元组数据,显著提升了多模态检索模型的性能。相较于传统多模态数据,MegaPairs仅需1/70的数据量即可实现更优的训练效果。
在大模型时代,信息检索需要满足用户日益多样化的多模态查询需求。然而,现有的多模态检索模型通常基于单一形式的跨模态配对数据进行训练,难以处理复杂的组合模态输入。为解决这一问题,智源BGE团队提出了MegaPairs数据合成方法,通过从现有大规模图像数据集中挖掘多样的关联图像对,并利用开源多模态大模型和大语言模型进行自动化指令生成,构建出高质量、可扩展、泛化性强的多模态检索指令微调数据集。MegaPairs完全基于开源数据集和开源模型进行自动化构建和标注,无需人工参与即可生成大规模、高质量且多样化的多模态检索指令数据集。
基于MegaPairs合成的大规模多模态检索指令数据集,智源BGE团队训练出了3款不同尺寸的多模态检索模型,包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large,以及基于多模态大模型架构的BGE-VL-MLLM。这些模型在多个任务上实现了远超以往方法的领先性能优势。在Massive Multimodal Embedding Benchmark(MMEB)上,BGE-VL在零样本性能表现方面实现了最优性能,尽管MegaPairs并未包含MMEB中的绝大部分任务类型数据,却能够实现良好的任务泛化能力。在有监督微调实验中,BGE-VL的平均性能指标相比直接在MMEB上微调的VLM2Vec模型高出9.1个百分点,同时在分布外数据集上的平均表现也显著优于对比基线。
在组合图像检索任务中,BGE-VL在不同模型尺寸上均显著刷新了现有基准,大幅超越包括谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以不到1/50的参数量超越了如MM-Embed和E5-V等大模型底座的多模态检索器。这些实验结果有力展示了MegaPairs数据的有效性。此外,团队对MegaPairs的可扩展性和数据质量进行了深入研究,发现随着MegaPairs数据规模的增加,BGE-VL模型表现出一致的性能增长趋势,证明了MegaPairs数据构造方法的良好可扩展性。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模即可实现显著的性能优势,进一步证明了MegaPairs数据的高效性和高质量。
未来,智源将继续探索MegaPairs与更丰富的多模态检索场景结合,进一步打造更全能通用的多模态检索器。BGE-VL的技术报告已发布,相关数据、模型及代码资源将陆续向社区全面开放。
原文和模型
【原文链接】 阅读原文 [ 2078字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★