文章摘要
【关 键 词】 文本压缩、LLMLingua-2、性能提升、Transformer、GPT-4
清华大学和微软的研究人员提出了一种名为LLMLingua-2的新型文本压缩方法,该方法能够在保证输出质量不变的情况下,将提示词压缩至原始长度的20%。与现有基于信息熵的文本压缩方法相比,LLMLingua-2通过从大型语言模型(LLM)中提取知识,实现了在不丢失关键信息的前提下对提示词进行压缩。该方法已在GitHub上获得3.1k星,并在多个数据集上展示了其出色的性能和泛化能力。
LLMLingua-2的实现方法包括提示设计、标注与筛选以及压缩器。提示设计关键在于如何设定精确的压缩指令,以指导GPT-4仅移除不重要的词汇,同时避免引入新词汇。研究人员开发了一种新颖的数据标注算法,对原文中的每个词汇进行标注,明确指出哪些词汇在压缩过程中必须保留。此外,还设计了两种质量监控机制,以识别并排除品质不佳的数据样本。
压缩器将文本压缩问题转化为对每个词汇(Token)进行分类的任务,并采用强大的Transformer作为特征提取器。通过在精心构建的数据集上进行训练,模型能够根据每个词汇的重要性,计算出一个概率值来决定词汇的去留。
研究人员在一系列任务上测试了LLMLingua-2的性能,包括上下文学习、文本摘要、对话生成、多文档和单文档问答、代码生成以及合成任务。测试结果显示,LLMLingua-2在保持高性能的同时,减少了最小的性能损失,并在任务不特定的文本压缩方法中表现突出。在域内测试(MeetingBank)和域外测试(LongBench、GSM8K和BBH)中,LLMLingua-2均取得了显著的性能提升。
LLMLingua-2的计算开销相对较小,可以实现1.6倍到2.9倍的端到端速度提升,并将GPU内存成本降低8倍,从而降低对硬件资源的需求。研究人员观察到,随着压缩率的增加,LLMLingua-2可以有效地保持与完整上下文相关的信息量最大的单词,这归功于双向上下文感知特征提取器的采用以及明确朝着及时压缩目标进行优化的策略。
最后,研究人员让GPT-4从LLMLingua-2压缩提示中重构原始提示,结果表明GPT-4可以有效地重建原始提示,说明在LLMLingua-2压缩过程中并没有丢失基本信息。
原文和模型
【原文链接】 阅读原文 [ 2331字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★