标签:推理架构

长上下文不再难:KV Cache 全生命周期优化实战

长上下文大语言模型推动下游应用发展的同时,也带来计算和内存效率挑战。为应对这些挑战,围绕 KV 缓存的长上下文推理优化方法应运而生。1. 长文本大语言模型...

Mooncake 分离式推理架构创新与实践

在2024年QCon全球软件开发大会(上海站)上,月之暗面推理系统负责人何蔚然分享了“Mooncake分离式推理架构创新与实践”。何蔚然从实际业务出发,探讨了在固定...