当前位置：首页 > news >正文

工程技巧用缓存把 Agent 延迟打下来结果缓存语义缓存计划缓存

news 2026/7/12 17:02:32

从3s到300ms：用三级缓存体系把LLM Agent响应延迟打下来｜结果缓存+语义缓存+计划缓存全落地指南

你是不是也遇到过这样的痛点：辛辛苦苦搭好的LLM Agent，功能都跑通了，但是用户问个问题要等3-5秒才能返回响应，稍微复杂点的工具调用场景甚至要等10秒以上，用户体验差到离谱；更糟的是每天大模型调用账单蹭蹭涨，光重复问题的调用成本就占了一半以上。

本文针对LLM Agent的延迟与成本双高问题，提出三级缓存分层拦截体系：从上到下分别是精确匹配的结果缓存、同义匹配的语义缓存、流程复用的计划缓存，尽可能把请求拦截在调用大模型之前。读完本文你将掌握：

本文将从基础概念讲起，一步步带你把这套缓存体系整合到你的Agent项目中，所有代码都经过生产环境验证，可直接复用。

我们先算一笔真实的账：某企业内部服务Agent，用GPT-3.5-turbo做规划，接入了天气、考勤、薪资、审批4个工具，平均单次响应流程是：

用户Query输入 → 2. 大模型生成执行计划（平均1.2s） → 3. 调用工具（平均0.5s） → 4. 大模型整理结果返回（平均0.8s）
总平均延迟达到2.5s，如果遇到多轮工具调用的场景，延迟甚至会超过5s。

而根据互联网产品的通用用户体验标准：

同时成本方面，我们统计了该Agent上线1个月的12万条查询数据：

完全重复的Query占比12%
语义相同的同义Query占比28%
任务类型相同、仅参数不同的Query占比35%
也就是说，75%的查询其实完全不需要重新调用大模型做规划或者生成结果，这部分的调用成本完全被浪费了，每月仅这部分的浪费就超过3000元。

目前很多开发者做的Agent缓存都停留在第一代：精确结果缓存，仅对完全相同的Query做匹配，命中率只有10%左右，几乎起不到太大作用；还有部分团队用了语义缓存，但也只能缓存静态结果，对于天气、股价、考勤这种实时动态数据的场景完全不适用，因为结果会变，缓存很快就失效。

而Agent最耗时的步骤其实是规划阶段：不管用户问的是“北京明天天气”还是“上海后天会不会下雨”，生成的执行计划都是“调用天气工具，传入城市和日期参数”，这部分的大模型调用完全可以复用，这就是我们提出计划缓存的核心动机。

我们先把三类缓存的核心概念明确下来：

缓存类型	核心定义	核心价值
结果缓存（Result Cache）	对用户Query做精确字符串匹配，直接返回历史中相同Query的返回结果	速度最快，延迟<1ms，完全省掉大模型调用
语义缓存（Semantic Cache）	对用户Query做嵌入生成，通过向量相似度匹配语义相同的同义Query，返回对应结果	覆盖同义Query场景，命中率比结果缓存高2-3倍，延迟<10ms
计划缓存（Plan Cache）	对用户的任务语义做匹配，缓存相同任务的执行计划（工具调用链、参数模板），仅提取Query中的动态参数执行	覆盖动态数据场景，省掉最耗时的大模型规划步骤，延迟<150ms

我们从多个维度对三类缓存做对比，方便大家根据自己的场景选择：