标签:预算分配

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

键值缓存(KV cache)是大模型快速运行的核心技术,但存在输入文本越长、所需存储空间越大且处理长文本变慢的问题。现有 KV cache 压缩方法主要依赖基于规则...