标签:优化方法

长上下文不再难:KV Cache 全生命周期优化实战

长上下文大语言模型推动下游应用发展的同时,也带来计算和内存效率挑战。为应对这些挑战,围绕 KV 缓存的长上下文推理优化方法应运而生。1. 长文本大语言模型...