剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
文章摘要
【关 键 词】 PreFLMR、多模态、知识检索、剑桥大学、开源
剑桥大学信息工程系人工智能实验室最近开源了首个预训练、通用多模态后期交互知识检索器PreFLMR。该模型基于Fine-grained Late-interaction Multi-modal Retriever (FLMR)并进行了改进和大规模预训练,旨在解决多模态大模型在回答知识密集型问题时的不足。PreFLMR是一个通用预训练模型,能够处理文文检索、图文检索和知识检索等多个子任务,并在私有数据上稍加训练后获得极佳的领域专用模型表现。
PreFLMR在多模态知识检索中具有优势,因为它在字符级别上编码问询和文档,保留了细粒度信息,而传统的密集文本检索(DPR)则将所有信息压缩至一维向量,导致细粒度信息损失。PreFLMR能够根据用户输入的指令从庞大的知识库中提取相关文档,帮助多模态大模型提升专业知识问答任务的表现。
剑桥大学团队开源了三个不同规模的模型:PreFLMR_ViT-B (207M)、PreFLMR_ViT-L (422M)、PreFLMR_ViT-G (2B)。此外,项目还开源了一个训练和评估通用知识检索器的大规模数据集M2KR,包含10个检索子任务和超过百万的检索对。论文中,剑桥大学团队对比了不同大小、不同表现的图像编码器和文本编码器,总结了扩大参数和预训练多模态后期交互知识检索系统的最佳实践。
PreFLMR的预训练包括文本编码器预训练、图像-文本投射层预训练、持续预训练和通用检索训练。实验结果显示,使用ViT-G作为图像编码器和ColBERT-base-v2作为文本编码器的PreFLMR模型在7个M2KR检索子任务上取得了优异表现。在知识密集型视觉问答任务上,使用PreFLMR进行检索增强大大提高了最终系统的表现。
总之,PreFLMR模型是第一个开源的通用后期交互多模态检索模型,经过在M2KR上的百万级数据预训练,在多项检索子任务中展现出强劲的表现。M2KR数据集、PreFLMR模型权重和代码可以在项目主页获取。
原文和模型
【原文链接】 阅读原文 [ 2405字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★