剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

 

文章摘要


【关 键 词】 PreFLMR多模态知识检索剑桥大学开源

剑桥大学信息工程系人工智能实验室最近开源了首个预训练、通用多模态后期交互知识检索PreFLMR。该模型基于Fine-grained Late-interaction Multi-modal Retriever (FLMR)并进行了改进和大规模预训练,旨在解决多模态大模型在回答知识密集型问题时的不足。PreFLMR是一个通用预训练模型,能够处理文文检索、图文检索和知识检索等多个子任务,并在私有数据上稍加训练后获得极佳的领域专用模型表现。

PreFLMR在多模态知识检索中具有优势,因为它在字符级别上编码问询和文档,保留了细粒度信息,而传统的密集文本检索(DPR)则将所有信息压缩至一维向量,导致细粒度信息损失。PreFLMR能够根据用户输入的指令从庞大的知识库中提取相关文档,帮助多模态大模型提升专业知识问答任务的表现。

剑桥大学团队开源了三个不同规模的模型:PreFLMR_ViT-B (207M)PreFLMR_ViT-L (422M)PreFLMR_ViT-G (2B)。此外,项目还开源了一个训练和评估通用知识检索器的大规模数据集M2KR,包含10个检索子任务和超过百万的检索对。论文中,剑桥大学团队对比了不同大小、不同表现的图像编码器和文本编码器,总结了扩大参数和预训练多模态后期交互知识检索系统的最佳实践。

PreFLMR的预训练包括文本编码器预训练、图像-文本投射层预训练、持续预训练和通用检索训练。实验结果显示,使用ViT-G作为图像编码器和ColBERT-base-v2作为文本编码器的PreFLMR模型在7个M2KR检索子任务上取得了优异表现。在知识密集型视觉问答任务上,使用PreFLMR进行检索增强大大提高了最终系统的表现。

总之,PreFLMR模型是第一个开源的通用后期交互多模态检索模型,经过在M2KR上的百万级数据预训练,在多项检索子任务中展现出强劲的表现。M2KR数据集PreFLMR模型权重和代码可以在项目主页获取。

原文和模型


【原文链接】 阅读原文 [ 2405字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...