扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍

AIGC动态6小时前发布 almosthuman2014

56 0 0

文章摘要

【关键词】 REFRAG框架、大语言模型、长上下文、解码优化、持续预训练

扎克伯格的投资似乎初见成效，Meta Superintelligence Labs 联合提出 REFRAG 高效解码框架，旨在解决大语言模型（LLM）处理长上下文输入时的效率瓶颈。

在当前 AI 应用中，利用 LLM 处理长文本输入虽能提升应用能力，但传统 LLM 中注意力机制的计算和内存开销会随输入长度的平方增长，导致严重系统延迟、消耗大量内存，开发者需在知识丰富度与系统效率间权衡。Meta 研究发现，RAG 应用里 LLM 处理的上下文中大部分段落与用户查询无关，造成计算资源浪费。REFRAG 基于此观察，通过识别并跳过非相关上下文的无效计算来优化解码过程。

REFRAG 框架通过四步流程，利用注意力稀疏结构提升性能。压缩阶段，轻量级编码器将每 16 个 token 压缩成一个块向量；缩短阶段，主模型处理块向量，使输入序列长度缩短 16 倍；加速阶段，输入变短降低了注意力机制计算开销和 KV cache 大小；选择阶段，基于 RL 的策略挑出关键片段，防止压缩丢失信息。该框架在多种长上下文任务中验证有效，速度提升显著，首个 token 生成时间（TTFT）加速高达 30.8 倍，还能将现有 LLM 有效上下文大小扩展 16 倍，且精度不降反升。

在方法上，研究采用基于「下一段落预测」任务的持续预训练方法实现编码器与解码器的有效对齐。为确保持续预训练（CPT）阶段成功，提出包含重建任务和课程学习方法的训练方案。重建任务让编码器学习压缩文本，实现高效压缩和空间映射，初步对齐后解冻解码器开始 CPT；课程学习通过逐步增加任务难度，解决优化挑战；选择性压缩引入强化学习策略，决定保留关键信息块，编码器和解码器微调以适应混合输入形式。不过，REFRAG 最终价值还需在更广泛实际应用场景中检验，其 RL 策略也受到质疑。