标签:上下文缓存

Kimi 背后的长文本大模型推理实践:以 KVCache 为中心的分离式推理架构

在AICon全球人工智能开发与应用大会上,月之暗面高级研发工程师唐飞虎分享了Kimi智能助手背后的推理加速方案,以及该方案在设计时所需要考虑的指标和在真实生...