多模态检索大升级!智源三大SOTA模型,代码、图文理解能力拉满

AIGC动态13小时前发布 AIera
28 0 0
多模态检索大升级!智源三大SOTA模型,代码、图文理解能力拉满

 

文章摘要


【关 键 词】 向量模型代码检索多模态视觉化开源

智源研究院联合多所高校发布了三款向量模型,分别是BGE-Code-v1、BGE-VL-v1.5和BGE-VL-Screenshot。这些模型在代码及多模态检索领域取得了显著成果,并在多个测试基准中占据领先地位。BGE-Code-v1专为代码检索任务设计,基于Qwen2.5-Coder-1.5B基座,具备强大的多语言文本理解能力,显著提升了代码库的检索效率。该模型在CoIR和CodeRAG-Bench基准测试中表现优异,超越了谷歌、Voyage AI等商业和开源模型。

BGE-VL-v1.5是一款通用多模态检索模型,基于LLaVA-1.6训练,具备强大的图文理解能力。该模型在MegaPairs数据基础上进行了多任务训练,显著提升了泛化性和理解能力,适用于图文匹配、多模态问答等场景。在MMEB基准测试中,BGE-VL-v1.5刷新了zero-shot模型的最佳表现,并在检索任务中取得了72.16分的优异成绩。

BGE-VL-Screenshot则专注于视觉化文档检索任务,基于Qwen2.5-VL-3B-Instruct训练,收集了超过1300万张截图和700万组标注样本。该模型在多模态检索基准MVRB中表现出色,以60.61的综合得分达到SOTA,并在多语言任务上展现了出色的能力。

BGE系列模型自2023年8月发布以来,已成为中国首个登顶Hugging Face榜首的国产AI模型,并累计下载超6亿次。这些模型不仅在文本检索领域表现出色,还逐步拓展至代码和视觉等多模态数据应用,为构建更强大的多模态检索增强系统提供了有力支持。智源研究院将继续深耕向量模型与检索增强技术,期待与更多科研机构和产业伙伴合作,共同推动检索与人工智能的发展。

原文和模型


【原文链接】 阅读原文 [ 1692字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...