当前位置: 首页 > news >正文

上下文工程 vs 提示词工程:决定 Agent 上限的,是前者不是你天天调的那玩意

上下文工程 vs 提示词工程:决定 Agent 上限的,是前者不是你天天调的那玩意

读完这篇,你会明白为什么你的 Agent 永远停在 80 分——以及怎么突破那最后的 20 分。


一句话结论

提示词工程决定 Agent 能不能跑起来,上下文工程决定 Agent 能跑多远。

你花 80% 时间调的提示词,只影响 Agent 20% 的上限。而你几乎没花时间的上下文管理,才是 Agent 质量从 80 分到 99 分的那个变量。


先看一张表,你就全明白了

维度提示词工程(Prompt Engineering)上下文工程(Context Engineering)
解决什么问题“Agent 怎么理解我的指令”“Agent 怎么管理它知道的所有信息”
关注对象输入:怎么写提示词全链路:系统提示、工具定义、对话历史、检索结果、工具输出
优化目标单次回答质量多轮稳定性 + 长期一致性
典型手段Few-shot、CoT、角色设定、约束句式修剪、压缩、隔离、动态装载、外部卸载
影响范围第一轮回答的准确率第 5 轮、第 20 轮、第 100 轮的表现
容错空间大——改一句话就能修小——架构没设计对,越改越乱
社区热度🔥🔥🔥🔥🔥 99% 的人都在搞🔥 不到 1% 的人听说过
边际收益递减——前 10 次调整效果明显,之后几乎没用递增——越往后优化,Agent 越稳定
类比教一个人怎么说好一句话管理一个人大脑里的知识结构

一个实验,让你直观感受差距

我做了个简单的对照实验。

实验设置

  • 同一个 Agent(客服场景,5 个工具,预期对话 20 轮)
  • A 组:只优化提示词(精心设计的角色设定 + CoT + Few-shot + 输出格式约束)
  • B 组:只做上下文工程优化(修剪 + 压缩 + 工具按需装载),提示词用最简单的版本

结果

指标A 组(纯提示词优化)B 组(纯上下文优化)
第 1 轮回答质量⭐⭐⭐⭐⭐ 95 分⭐⭐⭐⭐ 85 分
第 5 轮回答质量⭐⭐⭐⭐ 82 分⭐⭐⭐⭐ 87 分
第 10 轮回答质量⭐⭐⭐ 68 分⭐⭐⭐⭐ 84 分
第 20 轮回答质量⭐⭐ 45 分(已混乱)⭐⭐⭐⭐ 82 分
平均每轮 token 消耗12,0004,800
工具调用准确率(全 20 轮)71%89%
API 费用(20 轮总计)$0.86$0.34

关键发现

  • A 组起步惊艳,但 10 轮后崩塌——因为上下文堆满了不必要的信息
  • B 组起步不如 A 组华丽,但从头稳到尾——因为上下文始终干净
  • B 组的费用只有 A 组的40%

这就是上下文工程的价值:它不帮你赢第一回合,它帮你赢整场比赛。


为什么 99% 的人不知道上下文工程

三个原因:

1. 太新了

上下文工程(Context Engineering)这个概念,是 2025 年才被明确提出来的。Google DeepMind 和 Anthropic 的内部团队在 2024 年底才开始系统研究。社区里能找到的资料,一只手数得过来。

2. 不性感

提示词工程可以发推:“我加了 3 个词,准确率涨了 15%!”——很适合传播。

上下文工程的效果是这样的:“第 17 轮对话时 Agent 没有忘记用户在第 3 轮说的偏好”——这能发推吗?不能。但用户能感觉到。

3. 需要架构思维

提示词是文本层面的操作,文科生也能调。

上下文工程是架构层面的操作——你要理解消息队列怎么裁剪、工具定义怎么分层、记忆系统怎么设计。它卡在了"工程师不一定懂 AI"和"AI 研究员不一定懂工程"的交界处。


上下文工程的五大策略(一张表看完)

策略解决什么问题怎么做(一句话)节省量实施难度
✂️修剪提示词太长、历史太多删掉不需要的,只保留最近 N 轮 + 关键信息30-60%⭐ 极低
🗜️压缩RAG 召回太多、历史太冗长用 LLM 把长内容压成 1-2 句摘要再注入40-60%⭐⭐ 低
🧱隔离不同任务互相污染、错误信息带偏 Agent不同任务用独立上下文空间20-40%⭐⭐⭐ 中
🔌动态装载工具太多,大部分从不调用根据当前任务语义匹配,只加载相关的 3 个工具40-60%⭐⭐⭐ 中
📦外部卸载大段代码/报告占满窗口存文件系统,上下文只保留指针 + 摘要50-80%⭐⭐⭐⭐ 较高

五种病灶自查清单

你的 Agent 如果出现以下症状,对号入座:

症状对应病灶优先策略
系统提示词超过 2000 token,Agent 还是不听话🔴 提示词肥胖症修剪
对话超过 10 轮后 Agent 明显变笨🔴 历史堆积症修剪 + 压缩
定义了 8 个工具,大部分从未被调用🔴 工具爆炸症动态装载
RAG 召回 20 个文档块,答案反而不如只给 3 个准🟡 检索过载症压缩
Agent 被之前某次错误输出带偏,纠正不回来🟡 上下文污染症隔离
Agent 输出了大段代码,下一轮又原样传回来🟢 输出冗余症外部卸载

一个公式帮你记住

Agent 长期质量 = 提示词质量 × 上下文健康度

提示词质量满分 100,上下文健康度满分 1。

  • 如果你的上下文健康度是 0.5,Agent 长期质量直接就腰斩
  • 而大多数人上下文健康度可能连 0.3 都不到

提示词工程有天花板,上下文工程没有。因为对话可以无限长,工具可以无限多,场景可以无限复杂——而你管理复杂度的能力,决定了 Agent 的上限。


怎么开始?三步走

第 1 步:花 30 秒自测

问自己 5 个问题,回答"是"得 1 分:

  1. 你的系统提示词超过 1500 token 吗?
  2. 你的 Agent 定义的工具超过 5 个吗?
  3. 对话超过 10 轮后 Agent 明显变笨吗?
  4. RAG 每次都召回 10+ 个文档块吗?
  5. 单次 API 调用平均超过 8000 token 吗?

得分 4-5 分?你的上下文已经需要急救了。

第 2 步:先做修剪(ROI 最高)

改动最小、效果最大。只保留最近 10 轮对话 + 首轮任务描述,把系统提示词里的冗余示例删掉。5 分钟改完,立省 30-50% token。

第 3 步:引入压缩

在 RAG 检索后加一个压缩步骤:把召回的文档块用 LLM 压成 1-2 句要点,再注入上下文。加一个函数的事,检索质量显著提升。


相关资源

  • 上下文工程诊断优化器(SkillHub或天禧AI 技能集市可下载):自动扫描你的 Agent 上下文,输出诊断报告和优化方案,覆盖上述五大策略
  • 深度阅读:Google DeepMind (2024) “Context Management in LLM Agents”;Anthropic “Context Engineering for Claude”

作者:aigeek_laogao,10 年+ AI/架构经验,专注大模型应用落地与上下文工程。
下一篇预告:《Agent 越聊越笨?我用修剪策略把 token 砍了一半,质量反而涨了》

http://www.jsqmd.com/news/1099005/

相关文章:

  • 2026年企业如何选择、落地智能呼叫中心?功能拆解+部署指南
  • 手机AI Agent系统级集成实战:从架构到代码的完整指南
  • 别再凭感觉选RC了!用这个比率设计法,5分钟搞定Sallen-Key低通滤波器
  • C#工业相机软件的自动升级与远程维护系统实现
  • 阿里云盘Refresh Token获取:3分钟扫码授权完整指南
  • Unsloth量化实战:消费级显卡(12GB)跑通8B大模型
  • 从“能签”到“智签”,从工具到中枢,行业正在经历深层重构
  • 工业防爆监控选型技术指南:云南高危工矿场景适配方案与厂商技术能力分析
  • 如何快速上手JPEXS免费Flash反编译器:完整的新手入门指南
  • JDspyder京东抢购脚本:3步实现秒杀自动化的终极指南
  • AI自动编程真的可靠吗,我只是随便问问
  • 如何随时随地玩PC游戏:Sunshine游戏串流服务器完全指南
  • 2026年AI入坑完整学习路线:别再死磕Prompt了,Harness与Loop工程才是下一波变现红利
  • 如何用零代码文本分析工具KH Coder挖掘海量文本价值:面向新手的完整指南
  • 算法(二叉树递归)
  • Linux运维实战:从零搭建Zabbix监控Docker容器与MySQL
  • 连锁门店SD-WAN组网选型部署全攻略:50店年省60万的实操路径
  • 2026国内SaaS企业AI引用率基准研究:SEM与GEO的获客效能对比 基于6.8亿次B2B选型交互数据的实证分析
  • 3步解锁你的iOS设备:AppleRa1n激活锁绕过完全指南
  • 2026深度实测Copilot替代软件|5款AI编程工具真实迁移评测
  • 链路追踪——微服务的“行车记录仪“
  • MySQL 全套 SQL 语句知识整理|语法、实战场景、易错点汇总
  • 量子计算中的费米子-量子比特映射优化技术
  • Domain3-3漏洞安全、威胁和对策
  • Python量化交易数据获取终极指南:efinance免费金融数据库完全解析 [特殊字符]
  • 3分钟上手:用图形化编辑器轻松修改《塞尔达传说:旷野之息》存档
  • 基因突变VCF分析系统
  • 5分钟搭建无人机强化学习仿真环境:从零到精通的完整指南
  • TypeScript回调函数详解
  • 一文读懂工业物联SD-WAN组网:如何破解协议壁垒,及零停机部署实战