标签：预算分配

将KV Cache预算降至1.5%！他们用进化算法把大模型内存占用砍下来了

键值缓存（KV cache）是大模型快速运行的核心技术，但存在输入文本越长、所需存储空间越大且处理长文本变慢的问题。现有 KV cache 压缩方法主要依赖基于规则...

AIGC动态

5小时前