
文章摘要
智源研究院联合多所高校发布了三款向量模型,分别是BGE-Code-v1、BGE-VL-v1.5和BGE-VL-Screenshot。这些模型在代码及多模态检索领域取得了显著成果,并在多个测试基准中占据领先地位。BGE-Code-v1专为代码检索任务设计,基于Qwen2.5-Coder-1.5B基座,具备强大的多语言文本理解能力,显著提升了代码库的检索效率。该模型在CoIR和CodeRAG-Bench基准测试中表现优异,超越了谷歌、Voyage AI等商业和开源模型。
BGE-VL-v1.5是一款通用多模态检索模型,基于LLaVA-1.6训练,具备强大的图文理解能力。该模型在MegaPairs数据基础上进行了多任务训练,显著提升了泛化性和理解能力,适用于图文匹配、多模态问答等场景。在MMEB基准测试中,BGE-VL-v1.5刷新了zero-shot模型的最佳表现,并在检索任务中取得了72.16分的优异成绩。
BGE-VL-Screenshot则专注于视觉化文档检索任务,基于Qwen2.5-VL-3B-Instruct训练,收集了超过1300万张截图和700万组标注样本。该模型在多模态检索基准MVRB中表现出色,以60.61的综合得分达到SOTA,并在多语言任务上展现了出色的能力。
BGE系列模型自2023年8月发布以来,已成为中国首个登顶Hugging Face榜首的国产AI模型,并累计下载超6亿次。这些模型不仅在文本检索领域表现出色,还逐步拓展至代码和视觉等多模态数据应用,为构建更强大的多模态检索增强系统提供了有力支持。智源研究院将继续深耕向量模型与检索增强技术,期待与更多科研机构和产业伙伴合作,共同推动检索与人工智能的发展。
原文和模型
【原文链接】 阅读原文 [ 1692字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆