当前位置: 首页 > news >正文

论文洞察:面向RAG场景的KV Cache复用技术兰心兰心

研究背景

本文基于芝加哥大学、香港中文大学、微软在EuroSys25上发表的研究成果《CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion》进行深入分析。

CacheBlend是面向RAG场景的LLM推理加速方案,解决了多文本块输入下KV Cache复用率低、生成质量差问题,通过选择性重计算少量关键token的KV值,实现无质量损失的推理加速。

核心问题识别

在多文本块输入场景下,如何快速融合不同文本块的KV Cache,来平衡LLM prefill推理阶段的生成质量与推理速度这两个关键指标,已成为当下的首要需求。现有KV Cache复用方案存在以下挑战:

前缀KV Cache复用率低:仅能复用输入前缀的KV Cache,多文本块场景下复用率低,速度接近全量KV重新计算;

全量KV Cache复用生成质量低:忽略了文本块间的交叉注意力(跨块token的关联信息),导致LLM推理的生成质量大幅下降。

核心设计与创新

CacheBlend通过对关键性KV进行重新计算,实现了不同文本块KV Cache的高效融合,核心思路是复用大部分预计算KV Cache,仅重新计算少量关键token的KV值以恢复交叉注意力,同时通过流水线优化隐藏额外计算延迟。

  • 关键性KV重新计算:在Transformer每一层中选择性重新计算少量高KV偏差(High-KV-Deviation, HKVD)标记的KV值(约 10%-20%),恢复块间交叉注意力,保证生成质量;
  • 渐进式筛选策略:利用相邻层KV偏差的强相关性,从第一层筛选出候选token,后续层基于前一层的候选集逐步筛选,在保证准确性的同时降低计算开销;
  • 流水线优化:将某一层的关键性KV重新计算与下一层KV Cache的加载过程并行,隐藏重新计算的额外延迟,支持将KV Cache存储在低速大容量设备(如SSD)中。


不同KV Cache复用算法的原理图
实验验证
基于Mistral-7B、Yi-34B和Llama-70B模型对CacheBlend、前缀KV Cache、全量KV重新计算、全量KV Cache复用等方案进行了测试:

  • 时延:与全量KV重新计算、前缀KV Cache相比,CacheBlend在不损失生成质量且不增加存储成本的前提下,将TTFT缩短2.2-3.3倍;
  • 吞吐量:与全量KV重新计算相比,推理吞吐量提升2.8-5倍;
  • 准确性:与全量KV Cache复用相比,CacheBlend在问答任务上的F1分数提升0.1-0.2,在摘要任务上的Rouge-L分数提升0.03-0.25。

不同算法的吞吐量大小对比

研究价值

CacheBlend解决了多文本块输入下KV Cache复用难、推理慢、质量差的问题,实现了非前缀文本块的KV Cache有效复用,从而提高了面向RAG场景的LLM推理效率。

论文链接

https://dl.acm.org/doi/10.1145/3689031.3696098

以上内容转载自微信公众号—大模型软硬协同优化,链接:https://mp.weixin.qq.com/s/TAoa

http://www.jsqmd.com/news/622630/

相关文章:

  • 2026年4月口碑好的铝合金外壳母线槽厂家推荐,母线槽/空气型母线槽,铝合金外壳母线槽安装服务哪家好 - 品牌推荐师
  • ThinkPad风扇控制终极指南:如何用TPFanCtrl2实现精准散热与静音平衡
  • Linux下高效下载Hugging Face预训练模型的三大实战技巧
  • OpenCore Legacy Patcher深度解析:如何让老Mac重获新生的技术实现
  • Claude Code每日更新速览(v2.1.98)-2026/04/10
  • SpringBoot微服务集成Graphormer:构建化学属性预测API服务
  • 2026修乐家家电维修预约后多久能上门,服务靠谱吗 - 工业设备
  • 云容笔谈系统镜像一键部署与ComfyUI工作流整合教程
  • AI +Redis 缓存增强
  • 告别ChatGPT式生成:用LLaDA的扩散模型思路,5分钟理解文本生成的并行革命
  • Blender 3MF插件:实现3D打印工作流的完整导入导出解决方案
  • 2026年苏州家电维修费用盘点,修乐家家电维修评价怎么样 - 工业品网
  • FPGA开发流程深度解析:从‘点灯’看硬件思维与软件思维的本质区别
  • 万象视界灵坛入门必看:Bright-Pixel美学+CLIP-ViT-L/14全链路解析指南
  • 沃尔玛购物卡回收平台:快速、安全、高效! - 团团收购物卡回收
  • 稳压二极管型号及参数、肖特基二极管型号及参数
  • 2026 年临沂找专业人力资源管理咨询公司选哪家?
  • CefFlashBrowser完全指南:如何在2025年完美运行Flash内容与游戏存档
  • SQL中如何通过JOIN实现级联删除_利用外键约束与JOIN辅助
  • 2026年西安值得选购的家电维修品牌分析,修乐家维修质量有保障吗解读 - 工业品牌热点
  • 像素语言·跨维传送门实操手册:Hunyuan-MT-7B支持的33语种覆盖范围与典型用例解析
  • SpringAI+Deepsenk+Tool + Advisor 架构实践和深入刨析
  • 2026 企微私域运营超全攻略(四):数据报表自动化,从企微API到BI看板
  • 读2025世界前沿技术发展报告38高性能纤维及其复合材料
  • PCB板子走线的线宽如何设置
  • WeMod增强器终极指南:零成本解锁专业版功能与高级用户体验
  • 图片优化大师:专业高效无损压缩PNGJPEG等图片,提升传输与存储效率,节省磁盘空间
  • InstructPix2Pix代码实例:Python API调用方法详解
  • Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF效果实测:JSON Schema生成+校验代码自动编写
  • Sunshine游戏流媒体服务器实战排错指南:从编码故障到系统优化的深度解析