027、性能优化:缓存机制、提示压缩与检索加速
027、性能优化:缓存机制、提示压缩与检索加速
从一次深夜调试说起
上周三凌晨两点,我被报警短信吵醒——线上问答服务的响应时间从 200ms 飙到了 8 秒。登录服务器一看,LangChain 应用正在反复调用 GPT-4 处理几乎相同的问题:“帮我写一个 Python 的快速排序函数”。每次调用都在重新生成答案,既烧钱又拖慢响应。这个场景让我意识到:在 AI 应用走向生产环境时,性能优化不是可选项,而是生存项。
今天我们就聊聊 LangChain 性能优化的三个核心手段:缓存、提示压缩和检索加速。这些不是理论概念,而是我从真实项目里踩坑总结出来的实战经验。
缓存机制:别让相同的查询重复烧钱
LangChain 内置了多种缓存方案,但选错缓存类型会适得其反。先看这段代码:
fromlangchain.cacheimportInMemoryCachefromlangchain.globals