RAG微调Llama 3竟超越GPT-4！英伟达GaTech华人学者提出RankRAG框架

AIGC动态1年前 (2024)发布 AIera

4,075 0 0

RAG微调Llama 3竟超越GPT-4！英伟达GaTech华人学者提出RankRAG框架

文章摘要

佐治亚理工学院和英伟达的学者们提出了一种名为RankRAG的微调框架，旨在简化传统的RAG（Retrieval-Augmented Generation）流水线。RAG是一种在文本生成任务中常用的技术，特别是在需要大量事实知识的情况下。传统的RAG方法涉及多个模型，包括检索、排名和生成，而RankRAG通过微调使得同一个大型语言模型（LLM）能够完成所有这些任务，从而提高了数据效率并增强了模型性能。

RankRAG的核心思想是通过微调来扩展模型的能力，将原本需要额外模型完成的检索和排名任务交由LLM自身处理。实验结果表明，RankRAG在多个通用基准和生物医学知识密集型基准上的性能均优于ChatQA-1.5系列模型。具体来说，在9个通用基准和5个生物医学基准上，RankRAG使用Llama 3 8B/70B微调出的模型超过了同样基座上的ChatQA-1.5模型。

RankRAG的训练过程包括两个阶段的指令微调。第一阶段是监督微调（SFT），使用来自多个数据集的128k个样例，以提高LLM的指令跟随能力。第二阶段的微调数据集由多个部分组成，包括上下文丰富的QA数据、会话QA数据集、检索增强的QA数据、上下文排名数据和检索增强的排名数据，旨在提升LLM的检索和排名性能。

在推理阶段，RankRAG的流程与传统RAG相似，首先检索出top-N结果，然后进行重新排名并保留top-k段落，最后将这些段落与问题连接进行生成。不同之处在于，RankRAG通过指令微调直接增强了LLM的相关能力，而无需在模型外部添加额外操作。

消融研究显示，RankRAG的所有新组件都对最终性能有所贡献。此外，RankRAG在使用不同参数量的Llama2作为骨干时，性能在各种类型和规模下都有提升。在不同检索器的性能表现方面，RankRAG即使在初始检索结果不理想的情况下，仍然比ChatQA-1.5高出10%以上，显示出很强的鲁棒性。

在特定领域的RAG基准上，RankRAG在生物医学RAG基准Mirage上表现出色，即使没有进行过微调，也能在医学问答任务上达到接近或超过现有最佳模型的性能。这证明了RankRAG在专业领域的适应性。

总的来说，RankRAG通过微调简化了RAG流水线，提高了数据效率和模型性能，尤其在知识密集型任务上表现出色。这一框架为大型语言模型在文本生成任务中的应用提供了一种新的优化方向。