文章摘要
【关 键 词】 AI大会、智能助手、推理加速、优化策略、上下文缓存
在AICon全球人工智能开发与应用大会上,月之暗面高级研发工程师唐飞虎分享了Kimi智能助手背后的推理加速方案,以及该方案在设计时所需要考虑的指标和在真实生产环境中部署的表现。
Kimi智能助手在多个平台上都有入口,包括Apple Store、微信小程序以及Web端,尤其在Web端的排名一直居高不下。尽管用户数量不断增加,但用户体验得到了显著改善,Kimi“累了”的情况减少了很多,这与推理团队的技术攻关是分不开的。
唐飞虎从四个方面进行了介绍:长文本推理的瓶颈问题、市面上的推理优化工具和方法、Mooncake项目以及上下文缓存的应用。
长文本推理的瓶颈主要在于成本高和速度慢,这与Transformer模型在计算Attention机制时的工作方式有关。为了解决这些问题,唐飞虎介绍了包括Flash Attention、vLLM、MOE以及Speculative Decoding等优化策略。
Mooncake项目是一个以KVCache为中心的分离式推理架构,由Prefill池、Decoding池和KVCache池三个核心部分组成。这种分离式处理方法可以提高长文本推理的效率,同时保持用户体验的高质量。
上下文缓存技术通过引入“公共上下文”的概念,可以避免重复计算,提高响应速度和效率。这种技术特别适合频繁进行请求并且需要重复引用大量初始上下文信息的场景。
在即将召开的QCon上海站上,月之暗面推理系统负责人何蔚然将进一步分享Mooncake分离式推理架构创新与实践,微软亚洲研究院软件开发工程师姜慧强将分享长文本LLMs推理优化:动态稀疏性算法的应用实践,还有更多大模型训练推理的一手实践案例。
Mooncake架构的实践表明,通过实施三个独立的资源池,可以更有效地管理资源,减少资源浪费,并确保服务的稳定性和响应速度。这种调度提升了用户体验,因为我们能够更好地应对用户需求的高峰和低谷,确保服务始终如一地流畅运行。
上下文缓存技术的收费模式已经进行了优化和调整,现在创建缓存的成本非常低,而且是一次性的费用。调用缓存的费用也几乎可以忽略不计,主要的成本瓶颈在于存储空间的费用。为了鼓励更多开发者使用这项技术,我们最近对价格进行了调整,降价幅度达到了50%。
上下文缓存技术的应用场景非常广泛,尤其适合那些频繁进行请求并且需要重复引用大量初始上下文信息的场景。在我们的线上生产环境中,随着Mooncake架构从最初的灰度测试到现在的全面部署,Kimi智能助手能够每天处理的请求量增加了75%。这也是为什么用户最近感觉到“Kimi累了”的情况有所减少的原因之一。
原文和模型
【原文链接】 阅读原文 [ 6592字 | 27分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★