扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍

文章摘要
【关 键 词】 REFRAG框架、大语言模型、长上下文、解码优化、持续预训练
扎克伯格的投资似乎初见成效,Meta Superintelligence Labs 联合提出 REFRAG 高效解码框架,旨在解决大语言模型(LLM)处理长上下文输入时的效率瓶颈。
在当前 AI 应用中,利用 LLM 处理长文本输入虽能提升应用能力,但传统 LLM 中注意力机制的计算和内存开销会随输入长度的平方增长,导致严重系统延迟、消耗大量内存,开发者需在知识丰富度与系统效率间权衡。Meta 研究发现,RAG 应用里 LLM 处理的上下文中大部分段落与用户查询无关,造成计算资源浪费。REFRAG 基于此观察,通过识别并跳过非相关上下文的无效计算来优化解码过程。
REFRAG 框架通过四步流程,利用注意力稀疏结构提升性能。压缩阶段,轻量级编码器将每 16 个 token 压缩成一个块向量;缩短阶段,主模型处理块向量,使输入序列长度缩短 16 倍;加速阶段,输入变短降低了注意力机制计算开销和 KV cache 大小;选择阶段,基于 RL 的策略挑出关键片段,防止压缩丢失信息。该框架在多种长上下文任务中验证有效,速度提升显著,首个 token 生成时间(TTFT)加速高达 30.8 倍,还能将现有 LLM 有效上下文大小扩展 16 倍,且精度不降反升。
在方法上,研究采用基于「下一段落预测」任务的持续预训练方法实现编码器与解码器的有效对齐。为确保持续预训练(CPT)阶段成功,提出包含重建任务和课程学习方法的训练方案。重建任务让编码器学习压缩文本,实现高效压缩和空间映射,初步对齐后解冻解码器开始 CPT;课程学习通过逐步增加任务难度,解决优化挑战;选择性压缩引入强化学习策略,决定保留关键信息块,编码器和解码器微调以适应混合输入形式。不过,REFRAG 最终价值还需在更广泛实际应用场景中检验,其 RL 策略也受到质疑。
原文和模型
【原文链接】 阅读原文 [ 2380字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★☆