「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

AIGC动态15小时前发布 AIera
43 0 0
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

 

文章摘要


【关 键 词】 文献搜索AI辅助性能评估开源系统跨学科

Ai2联合华盛顿大学及Meta、CMU、斯坦福等机构发布了OpenScholar系统,这是一个检索增强型语言模型,旨在辅助科学家进行文献搜索和综述工作。该系统结合了一个包含4500万篇论文的数据库,性能优于专有系统,甚至可媲美人类专家。为评估模型性能,团队推出了大规模基准ScholarQABench,覆盖多个学科,评价模型在引用准确性、涵盖度和质量等方面的表现。OpenScholar在开源方面表现突出,提供了训练数据、代码、模型检查点以及自动化脚本。

OpenScholar由数据库、检索器和语言模型三个关键组件构成,通过检索器从数据库中检索与输入查询语义相关的段落,然后由语言模型生成输出和引文。模型采用迭代式自反馈生成方法优化输出,并搭配专门基准ScholarQABench进行评估。评估结果显示,OpenScholar在单篇和多篇论文任务中均实现了SOTA性能,优于GPT-4o和标准RAG版本,以及PaperQA2等专用文献综述系统。在没有检索增强的情况下,模型难以生成正确引用,增加检索后性能大幅提升。

尽管OpenScholar表现出色,但仍存在局限性。它不能始终检索到最具代表性或相关性的论文,输出可能包含不准确事实信息。未来的工作可以进一步改进OpenScholar-8B的训练。此外,ScholarQABench数据集规模较小,容易受到注释者专业知识的影响,未来的研究需要探索如何扩大规模和范围,实现更自动化的数据收集和标注流程。最后,ScholarQABench主要关注计算机科学、生物医学和物理学等领域,研究结果可能无法完全推广到其他领域。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3851字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...