「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

1,958 0 0

文章摘要

Ai2联合华盛顿大学及Meta、CMU、斯坦福等机构发布了OpenScholar系统，这是一个检索增强型语言模型，旨在辅助科学家进行文献搜索和综述工作。该系统结合了一个包含4500万篇论文的数据库，性能优于专有系统，甚至可媲美人类专家。为评估模型性能，团队推出了大规模基准ScholarQABench，覆盖多个学科，评价模型在引用准确性、涵盖度和质量等方面的表现。OpenScholar在开源方面表现突出，提供了训练数据、代码、模型检查点以及自动化脚本。

OpenScholar由数据库、检索器和语言模型三个关键组件构成，通过检索器从数据库中检索与输入查询语义相关的段落，然后由语言模型生成输出和引文。模型采用迭代式自反馈生成方法优化输出，并搭配专门基准ScholarQABench进行评估。评估结果显示，OpenScholar在单篇和多篇论文任务中均实现了SOTA性能，优于GPT-4o和标准RAG版本，以及PaperQA2等专用文献综述系统。在没有检索增强的情况下，模型难以生成正确引用，增加检索后性能大幅提升。

尽管OpenScholar表现出色，但仍存在局限性。它不能始终检索到最具代表性或相关性的论文，输出可能包含不准确事实信息。未来的工作可以进一步改进OpenScholar-8B的训练。此外，ScholarQABench数据集规模较小，容易受到注释者专业知识的影响，未来的研究需要探索如何扩大规模和范围，实现更自动化的数据收集和标注流程。最后，ScholarQABench主要关注计算机科学、生物医学和物理学等领域，研究结果可能无法完全推广到其他领域。