当前位置：首页 > news >正文

论文洞察：面向RAG场景的KV Cache复用技术兰心兰心

news 2026/8/1 23:00:26

研究背景

本文基于芝加哥大学、香港中文大学、微软在EuroSys25上发表的研究成果《CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion》进行深入分析。

CacheBlend是面向RAG场景的LLM推理加速方案，解决了多文本块输入下KV Cache复用率低、生成质量差问题，通过选择性重计算少量关键token的KV值，实现无质量损失的推理加速。

核心问题识别

在多文本块输入场景下，如何快速融合不同文本块的KV Cache，来平衡LLM prefill推理阶段的生成质量与推理速度这两个关键指标，已成为当下的首要需求。现有KV Cache复用方案存在以下挑战：

前缀KV Cache复用率低：仅能复用输入前缀的KV Cache，多文本块场景下复用率低，速度接近全量KV重新计算；

全量KV Cache复用生成质量低：忽略了文本块间的交叉注意力（跨块token的关联信息），导致LLM推理的生成质量大幅下降。

核心设计与创新

CacheBlend通过对关键性KV进行重新计算，实现了不同文本块KV Cache的高效融合，核心思路是复用大部分预计算KV Cache，仅重新计算少量关键token的KV值以恢复交叉注意力，同时通过流水线优化隐藏额外计算延迟。

关键性KV重新计算：在Transformer每一层中选择性重新计算少量高KV偏差（High-KV-Deviation, HKVD）标记的KV值（约 10%-20%），恢复块间交叉注意力，保证生成质量；
渐进式筛选策略：利用相邻层KV偏差的强相关性，从第一层筛选出候选token，后续层基于前一层的候选集逐步筛选，在保证准确性的同时降低计算开销；
流水线优化：将某一层的关键性KV重新计算与下一层KV Cache的加载过程并行，隐藏重新计算的额外延迟，支持将KV Cache存储在低速大容量设备（如SSD）中。

图不同KV Cache复用算法的原理图
实验验证
基于Mistral-7B、Yi-34B和Llama-70B模型对CacheBlend、前缀KV Cache、全量KV重新计算、全量KV Cache复用等方案进行了测试：

时延：与全量KV重新计算、前缀KV Cache相比，CacheBlend在不损失生成质量且不增加存储成本的前提下，将TTFT缩短2.2-3.3倍；
吞吐量：与全量KV重新计算相比，推理吞吐量提升2.8-5倍；
准确性：与全量KV Cache复用相比，CacheBlend在问答任务上的F1分数提升0.1-0.2，在摘要任务上的Rouge-L分数提升0.03-0.25。

图不同算法的吞吐量大小对比

研究价值

CacheBlend解决了多文本块输入下KV Cache复用难、推理慢、质量差的问题，实现了非前缀文本块的KV Cache有效复用，从而提高了面向RAG场景的LLM推理效率。

论文链接

https://dl.acm.org/doi/10.1145/3689031.3696098

以上内容转载自微信公众号—大模型软硬协同优化，链接：https://mp.weixin.qq.com/s/TAoa