多模态检索大升级！智源三大SOTA模型，代码、图文理解能力拉满

957 0 0

文章摘要

智源研究院联合多所高校发布了三款向量模型，分别是BGE-Code-v1、BGE-VL-v1.5和BGE-VL-Screenshot。这些模型在代码及多模态检索领域取得了显著成果，并在多个测试基准中占据领先地位。BGE-Code-v1专为代码检索任务设计，基于Qwen2.5-Coder-1.5B基座，具备强大的多语言文本理解能力，显著提升了代码库的检索效率。该模型在CoIR和CodeRAG-Bench基准测试中表现优异，超越了谷歌、Voyage AI等商业和开源模型。

BGE-VL-v1.5是一款通用多模态检索模型，基于LLaVA-1.6训练，具备强大的图文理解能力。该模型在MegaPairs数据基础上进行了多任务训练，显著提升了泛化性和理解能力，适用于图文匹配、多模态问答等场景。在MMEB基准测试中，BGE-VL-v1.5刷新了zero-shot模型的最佳表现，并在检索任务中取得了72.16分的优异成绩。

BGE-VL-Screenshot则专注于视觉化文档检索任务，基于Qwen2.5-VL-3B-Instruct训练，收集了超过1300万张截图和700万组标注样本。该模型在多模态检索基准MVRB中表现出色，以60.61的综合得分达到SOTA，并在多语言任务上展现了出色的能力。

BGE系列模型自2023年8月发布以来，已成为中国首个登顶Hugging Face榜首的国产AI模型，并累计下载超6亿次。这些模型不仅在文本检索领域表现出色，还逐步拓展至代码和视觉等多模态数据应用，为构建更强大的多模态检索增强系统提供了有力支持。智源研究院将继续深耕向量模型与检索增强技术，期待与更多科研机构和产业伙伴合作，共同推动检索与人工智能的发展。