标签:KV缓存

长上下文不再难:KV Cache 全生命周期优化实战

长上下文大语言模型推动下游应用发展的同时,也带来计算和内存效率挑战。为应对这些挑战,围绕 KV 缓存的长上下文推理优化方法应运而生。1. 长文本大语言模型...

英伟达、港大等发布创新KV缓存,实现扩散模型无训练加速

扩散语言模型(Diffusion Language Models, dLLM)与传统的自回归模型(如GPT系列)在文本生成方式上存在显著差异。扩散模型通过逐步去除文本中的噪声来生成...

Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?

普林斯顿大学陈丹琦团队提出统一框架解决长上下文语言模型中的KV缓存内存瓶颈问题。随着'长思维链'等技术的兴起,模型需要处理数万token的输入,导致基于Tran...

全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注

扩散建模与自回归方法的融合在语言模型领域取得突破性进展。康奈尔大学、CMU等机构的研究团队提出新型混合框架Eso-LM,首次实现并行生成与KV缓存机制的兼容,...

标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源

华为、港大等机构的研究团队提出了一种基于自然语言分隔符的新型大语言模型SepLLM,通过将文本语义信息压缩至标点符号中,显著提升了训练推理效率。该方法发...