微软开源GraphRAG:极大增强大模型问答、摘要、推理

AIGC动态7个月前发布 AIGCOPEN
1,484 0 0
微软开源GraphRAG:极大增强大模型问答、摘要、推理

 

文章摘要


【关 键 词】 GraphRAG技术知识图谱社区摘要信息检索开源项目

7月3日,微软在其官网开源了GraphRAG,这是一种基于图的检索增强生成(RAG)技术,旨在提升大语言模型(LLM)在搜索、问答、摘要和推理等方面的能力。GraphRAG通过构建知识图谱,帮助模型捕捉文本中的复杂联系和交互,从而增强其生成和检索能力。

GraphRAG的核心是两阶段构建基于图谱的文本索引:首先,从源文档中衍生出实体知识图谱;然后,针对所有紧密相关的实体群组预生成社区摘要这一过程首先将源文档分割成较小的文本块,然后输入到大模型中以提取关键信息,包括识别文本中的实体及其关系,构建庞大的实体知识图谱。

GraphRAG进一步生成社区摘要,这些摘要是对社区内所有实体和关系的总结,提供了对数据集中特定部分的高层次理解。当用户提出问题时,系统会利用与问题相关的社区摘要来生成部分答案,然后汇总并精炼以形成最终答案。

与传统RAG相比,GraphRAG具有多项优势,包括扩展上下文理解能力、增强全局查询、提高摘要的质量和多样性、优化算力和资源利用率、提升信息检索和生成的协同、增强对数据集结构的理解以及提高对复杂问题的处理能力。在处理大规模文本数据集时,GraphRAG通过模块化处理减少了对算力资源的需求,同时显著降低了对token的需求。

微软在一个包含100万tokens的超复杂结构数据集上对GraphRAG进行了测试,结果显示其在全面性和多样性测试上超越了传统RAG方法。特别是在播客转录和新闻文章数据集上,GraphRAG显示出了超高的水准和多样性,是目前最佳的RAG方法之一。GraphRAG对tokens的低需求也意味着可以帮助开发者节省大量成本。

开源地址:https://github.com/microsoft/graphrag?tab=readme-ov-file

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1815字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...