当前位置：首页 > news >正文

Agent 的上下文压缩

news 2026/6/10 13:40:22

Agent 的上下文压缩：不是省 Token，而是给模型做注意力管理

灵感来源：本文受腾讯技术工程公众号文章《横向拆解Claude Code、Codex等六大Agent上下文压缩策略后，我们做了第 7 个》（作者 mervynyang，2026-06-08）的启发。原文横向拆解了 Claude Code、Codex CLI、OpenCode、Cline、Cursor、Amp、MemGPT/Letta 等上下文压缩方案，并介绍了 MUR AI 的四级水位线实践。本文不是复述原文，而是基于阅读后的工程理解，整理一套更通用的 Agent 上下文压缩设计思路。

先说结论

Agent 的上下文压缩，表面上是在省 token，实际上是在保护模型的注意力。

长上下文窗口让我们误以为“能塞进去”就等于“模型能稳定使用”。但真实的 Agent 工作流里，噪声增长得很快：工具输出、构建日志、搜索结果、重复解释、历史尝试、过期中间结论，都会和真正重要的用户目标混在一起。上下文越长，模型越容易把注意力花在错误位置。

所以压缩系统不应该被设计成“快爆了才救火”的兜底逻辑。它更像一套持续运行的内存管理器：哪些东西必须原样保留，哪些东西可以降级成摘要，哪些东西只需要留一个可回溯的指针，哪些东西应该从模型视野里移走。

第一代问题：等到爆仓才动手

最粗糙的做法通常是：上下文快满了，触发一次全量摘要，把前面的对话揉成一段文本，然后继续。

这个方案好实现，但问题也很明显。

首先，它是悬崖式的。系统平时什么都不做，直到模型已经被大量噪声拖慢、注意力已经开始漂移，才突然把历史压成摘要。其次，全量摘要很容易丢掉细节。变量名、错误栈、用户原话、文件路径、已经失败过的尝试，这些恰恰是 Agent 继续干活最需要的上下文。

更麻烦的是，它把不同信息当成了同一种东西。5000 行日志和用户贴的一段关键代码，在 token 数上可能差不多，但价值完全不同。前者可以截断，后者一旦压坏，任务目标就会变形。

这也是上下文压缩最核心的设计原则：不要只看长度，要看信息角色。

第二代共识：分层、渐进、保护近端

几个主流 Agent 的方案各不相同，但方向正在收敛。

Claude Code 倾向于把上下文管理拆成多段流水线，便宜的本地处理先做，真正需要模型参与的摘要放到最后。Codex CLI 更强调保护近期用户消息，把压缩看成一次工作交接。OpenCode 关注可恢复性，用隐藏和摘要组合保留回退空间。Cline 提供手动和自动两种压缩入口。Cursor 在压缩之外强调历史可搜索。Amp 更激进，认为长线程本身就是问题，倾向于通过 handoff 切换到新线程。MemGPT/Letta 则把上下文视作 RAM，把长期历史视作外部记忆，让 Agent 自己按需换入换出。

这些做法背后的共同点，比具体实现更重要：