文章摘要
【关 键 词】 谷歌、ReadAgent、阅读理解、Transformer、长文档
ReadAgent的设计灵感来源于人类的交互式阅读方式,它通过一个简单的提示系统实现,利用LLMs的高级语言功能。
这个系统包括三个主要部分:决定哪些内容存储在记忆片段中、将记忆片段压缩成简短的要点记忆、以及在需要时查找原始文本中的段落。
具体来说,ReadAgent通过片段分页和记忆提要来构建要点记忆,即将原始长上下文中的文本块缩短为有序的短要点集合。
在阅读长文本时,ReadAgent会选择暂停阅读的位置,并将前一个和当前暂停点之间的内容视为一个记忆片段。然后,提示LLM将这些内容缩短为要点或摘要。
ReadAgent采用两种查找策略:并行查找所有页面(ReadAgent-P)和顺序查找每个页面(ReadAgent-S)。
并行查找策略在问答任务中尽可能使用少量页面,以避免不必要的计算开销和干扰信息。顺序查找策略则允许模型访问更多信息,但计算成本更高。
ReadAgent的计算开销受到小因子线性约束,因此不会随着输入长度的增加而剧烈提升。
此外,ReadAgent还有变体,包括条件ReadAgent和非条件ReadAgent,分别适用于用户提前知道要解决的任务和不知道具体任务的情况。
在实验评估中,ReadAgent在QuALITY、NarrativeQA和QMSum三个长文档阅读理解任务上的性能均优于基线。
研究人员使用了指令微调后的PaLM 2-L模型,并采用压缩率(CR)和LLM评分器作为评估指标。
实验结果显示,ReadAgent能够有效地处理长文档,提高阅读理解能力。
总结来说,ReadAgent通过模仿人类的阅读过程,有效地提升了LLM在长文档阅读理解方面的性能。它通过分页和记忆提要来构建要点记忆,并采用并行和顺序的查找策略来处理长文档。实验结果证明了ReadAgent在多个长文档阅读理解任务上的有效性。
原文和模型
【原文链接】 阅读原文 [ 2015字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆