当前位置: 首页 > news >正文

从Prompt→Context→Harness Engineering,聊聊过去三年的变与不变

2026年初,AI圈和OpenClaw一起爆火的有一个晦涩难懂的新词儿,叫做Harness Engineering。 这是一个复杂而抽象的概念,各种中文翻译都得其意不得其神。

我并没有纠结于这个概念在中文圈子应该叫什么,而是在过去的两年多一直在身体力行地实践Harness:

如何设计好一个SystemPrompt?如何定义并优化一个Skill使其效果性能做到极致?如何用好ClaudeCode?如何用AI重塑团队协同开发的效能?如果用AI Agent引擎在各种工作场景中造出一个又一个的符合上岗需求的“人” ?

每当回顾自己的这些工作,从最初针对模型API调优PE(Prompt Engineering),到后来结合Rag,MCP,文件系统的CE(Context Engineering)调优,再到现在为“龙虾们”构建环境的最优解。有一个问题一直在我脑子里打转:

从PE→CE→HE→*E,变的是什么?不变的又是什么?

这几天总算腾出点时间来码码字系统思考下这个问题。想通了才发现:

这三个词其实在说同一件事。它们只是在不同的高度,望向同一个问题。

那个始终没变的东西

先说答案。

这三年,不管圈子里造了多少新词、发了多少论文、开了多少发布会,我们真正在解决的问题从头到尾只有一个:

怎么让 AI 在该做决定(推理)的那一刻,脑子里(上下文里)刚好装着对的东西。

就这一件事,朴素到不能再朴素。

仔细想想,在输入框里加一句"Let’s think step by step",PE准确率涨了。这是在干嘛?是在通过措辞,把"请一步步想"这个信息塞进模型的脑子。

一个 RAG 系统从向量库里拉出三段文档拼进上下文,是在干嘛?是在通过管道,把"这个问题相关的背景知识"塞进模型的脑子。

给 Agent 配好工具权限、错误恢复机制、质量评估流程,是在干嘛?是在通过环境设计,确保模型在每一步决策时,既看得到该看的,又做不了不该做的。

手段完全不同。目的一模一样。

Harrison Chase 说 :

Context Engineering 是"在正确的时机、以正确的格式,向模型提供正确的信息和工具"。

这个定义其实不只适用于 CE,把"信息和工具"换成"措辞"就是 PE,换成"整个运行环境"就是 HE。

三个词,一个内核。像三层同心圆,圆心始终没动。

我跟很多做 AI 应用的朋友聊过这个判断,他们的反应出奇一致:先愣一下,然后说"对,好像确实是这样"。有个做 RAG 的哥们说得更直接:“我每天干的活换了三遍说法,但我打开电脑之后解决的问题从来没换过。”

这个"不变"重要吗?我觉得非常重要。因为它意味着我们没有在原地打转。三年了,问题没变,说明这个问题是真问题,不是被炒作出来的伪命题。它不会因为下一个新词的出现而消失,不管 2027 年这个东西叫什么 Engineering,它要解决的还是同一件事。

但如果问题没变,为什么要换词?

因为变的是别的东西。

变的第一层:你在调什么

最直观的变化,是操作对象变了。

Prompt Engineering 时代,你调的是措辞。字面意思就是改字。“你是助手"改成"你是一个有二十年临床经验的主治医师”,回答就变专业了。给两个例子,格式就对了。温度调 0.7,XML 标签包起来,system prompt 要这么写不能那么写。

LinkedIn 上有人给 Prompt Engineer 标了 30 万美金年薪。社区里到处是秘籍。那段时间有一种"我掌握了魔法咒语"的快感。你跟模型之间的关系,就像给一个极其聪明但对你一无所知的人写信。信写得好,他就表现好;信写得差,他就跑偏。整件事的关键就在你笔下的那几十个字。

Context Engineering 时代,你调的是信息流。哪些文档该喂进去、什么时候喂、以什么格式喂、上下文窗口快满了怎么取舍。Shopify 的 CEO Tobi Lütke 在推上写了一句:

“I really like the term ‘context engineering’ over prompt engineering”,

Karpathy 转了加个"+1",一个词就立住了。为什么?因为2024年所有人都憋了一年没说清楚的感觉被这个词戳中了:我们管的根本不是话术,我们管的是信息。

Harness Engineering 时代,你调的是整个世界。OpenAI 的工程师 Ryan Lopopolo 写过一句后来被引用无数次的话:“Agents aren’t hard; the Harness is hard.” Agent 不难,难的是围绕 Agent 的那一整套东西:工具权限、纠错恢复、质量评估、状态持久化、安全护栏。你不是在调一个输入,你是在造一个 Agent 能活在里面的世界。

从字到信息流到环境。操作粒度在变大,操作对象在升维。

但注意,这三层不是替代关系,是套娃。

HE 包着 CE,CE 包着 PE。你在设计 harness 的时候,上下文管理是其中一个子系统;你在管上下文的时候,prompt 怎么写是其中一个细节。

不是 PE 过时了,是 PE 被装进了更大的框架里。就像学会了系统架构不代表不用写好代码,只是写代码变成了更大图景里的一个局部。

变的第二层:你是谁

比操作对象更深的变化,是操作者的角色变了。

PE 时代,你是操作员。

亲手打磨每一句话,一个字一个字试,改了再改。像手工匠人,活儿好不好全凭手艺,你的全部武器就是你的遣词造句。

CE 时代,你是信息管理员。

你不再逐字斟酌,而是在更高的层面做选择:这个信息该不该让模型看到?什么时候看到?以什么格式看到?上下文窗口从 4K 涨到 100K 再到 1M,但"能塞"和"该塞"完全是两回事。你把 100 页文档一股脑倒进去,模型反而更容易忽略关键信息。研究发现信息放在开头还是中间,效果差距巨大。

你不可能通过给一个人更多参考资料来让他做出更好的决策。资料太多,淹没了。重点是哪些资料、什么顺序、什么时候给。这是管理员的活,不是操作员的活。

HE 时代,你是架构师。

你甚至不直接管信息了,你设计规则和环境。Agent 能调哪些 API?危险操作需不需要人签字?写错代码了怎么回滚?卡了二十分钟谁来叫停?Anthropic 做过研究,结论挺扎心的:模型没法可靠地评估自己的输出,你得另外安排一个"评委"。

OpenAI 自己踩过的坑特别说明问题:他们发现最大的障碍不是模型笨,是环境没定义好。Agent 的能力在那儿摆着,但它缺少完成目标所需要的工具和结构。

然后他们发现了一件反直觉的事:约束越多,Agent 反而干得越好。

不是那种"五十页操作手册"的约束。规则太多跟没规则一样,Agent 要么全忽略要么开始优化错误的目标。但如果你把约束做成结构化的,比如linter 自动检查、CI 流程卡控、权限分级。这样Agent 的解空间缩小了,反而更容易找到正确路径。

这跟管人一模一样。你不会给一个优秀工程师写五十页操作手册。你给他清晰的架构规范、可靠的测试流程和及时的 code review,然后闭嘴让他干。好的管理者从来不是控制欲最强的那个人,而是环境设计得最好的那个人。

操作员 → 信息管理员 → 架构师。每退一步,离具体操作更远,离"这个世界应该长什么样"更近。

人并没有变得不重要。恰恰相反——人的杠杆在变大。操作员影响的是一次对话的质量,信息管理员影响的是一个任务的成败,架构师影响的是一整个系统的上限。你每后退一步,你的一个决策所波及的范围就大一个量级。

变的第三层:为什么必须变

前两层回答了"变了什么"。但更重要的问题是:为什么必须变

不是因为人闲着没事爱造新词。是因为问题的规模在膨胀。

PE 时代,AI 的典型任务是回答一个问题。一轮对话,一进一出。你精心写好 prompt,它给你一个回答,完事。这个尺度下,打磨措辞就够了。

但当你试着让 AI 处理一个真实的工作任务,需要查十份文档、对比三个方案、参考上周的对话记录。你会发现,一条 prompt 塞不下这些东西。你精心设计的措辞,面对真实世界的复杂度,就像拿一张便签纸去指挥一场战役。

不是 prompt 写得不好,是 prompt 这个容器,太小了。

所以 CE 出现了。它把容器从一句话扩展成一整套管道:RAG、记忆系统、动态上下文组装。能应付的复杂度上了一个量级。

但很快又撞墙了。因为 AI 开始干一件更新的事:不只是回答一个问题,而是持续工作好几个小时。写代码、跑测试、查 bug、提 PR。一个任务分十步,每步要用不同的工具,中间可能走进死胡同需要回退。

这时候光让模型"看到对的信息"不够了。它还需要知道能干什么、不能干什么、错了怎么办、谁来判断它干得好不好。信息管理解决不了这些。你需要设计的是一个环境。

所以 HE 出现了。

看到规律了吗?不是新词在追时髦,是问题的复杂度在逼着解法升维。

一个问题、一个回答,措辞就够了
一个任务、多轮交互,得管好信息流
一个目标、持续运行,你得造一个世界

问题没变,问题的规模在变。规模一变,同样的内核就需要更高维度的解法。

这才是三个词背后真正的逻辑:不是否定前一个,是在更大的尺度上重新发明同一个东西。

就像你学会了给一个人写备忘录,然后发现要管一个团队得建信息系统,再然后发现要管一家公司得设计组织架构。备忘录过时了吗?没有,它被包进了信息系统里。信息系统过时了吗?没有,它被包进了组织架构里。每一层都在,只是变成了更大框架的一个局部。

所以当有人问我"PE 是不是过时了",我的回答是:PE 没有过时,PE 被装进了 CE 里;CE 也不会过时,CE 被装进了 HE 里。

你在设计 harness 的时候,上下文管理是其中一个子系统;你在管上下文的时候,prompt 怎么写是其中一个细节。就像学会了系统架构不代表不用写好代码,只是写代码变成了更大图景里的一个局部。

他们是套娃,不是接力棒。

一个让人眩晕的推论

写到这里,其实可以收了。三个词、一个问题、解法在升维,这个结论已经够清晰了。

但我想多说一层。

你有没有注意到,这三年的变化有一条暗线:我们以为自己在优化 AI 的能力,但其实一直在优化 AI 所处的环境。

PE 是在调整措辞,模型的直接输入。CE 是在筛选信息,模型的感知范围。HE 是在设计世界,模型的整个生存空间。

这让我想到柏拉图的洞穴。洞穴里的人只能看到墙上的影子,以为那就是现实。走出洞穴的人看到了投射影子的火光和物体。再往外走,看到了太阳本身。

PE 是在调整影子的形状。CE 是在选择哪些物体放在火光前面。HE 是在设计整个洞穴,光源的位置、墙壁的角度、什么东西能进来什么不能。

这就引向一个让人有点眩晕的问题:

一个智能体的表现,究竟在多大程度上取决于它自身使用的模型能力,又在多大程度上取决于它被放置其中的环境?

三年前我们觉得答案是"能力",所以拼命调 prompt 去激发模型的潜力。三年后我们越来越倾向于"环境",所以开始造 harness,造整个世界。

也许智能从来不是某个主体的独立属性。它是主体与环境之间的一种共振。

如果这个推论成立,那我们花三年绕的这一大圈,绕出来的不只是技术进步,还有一个更深的认知:

你以为在调 AI,其实在造世界。

三年前写咒语,现在造世界。问题始终是那一个。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/653103/

相关文章:

  • 在CentOS 7上搞定Synopsys全家桶(VCS/Verdi/SCL 2018.09)的保姆级避坑指南
  • Claude code,openclaw 和hermes_agent 这三者的区别和使用场景
  • 2026最新!本科毕设论文格式模板(GB_T 7713.1-2025)
  • AI聊天助手:如何实现打字机效果的流式渲染
  • 源码级赋能:基于 Spring Boot 的 AI 视频管理平台二次开发与低代码集成实战
  • 告别繁琐!手把手教你封装超实用Android原生Adapter基类
  • 高效学习挖漏洞!全网最全的挖洞平台 + 零基础到精通实战指南
  • 端到端的“两极对话”:TCP和UDP,你天天用却未必懂
  • 逆向某多Anti-Content参数:从定位到环境补全的实战解析
  • 3分钟快速汉化:Axure RP中文语言包终极指南
  • 如何用 performance.navigation 判断页面刷新并清理缓存
  • 有什么好用的AI来辅助写代码吗
  • 软件聊天机器人中的意图识别技术
  • 强化学习的实战演进:从虚拟博弈到实体操控
  • Agent Marketplace:未来的AI应用商店长什么样?
  • 3步解锁:Nucleus Co-Op带你体验单机游戏多人同屏的魔法
  • 从石墨烯芯片到简历微调:2026奇点大会硬核披露AI简历优化器底层架构(含3类Transformer轻量化部署路径)
  • STM32CubeIDE HAL库实战:MPU9250传感器数据读取全流程(附避坑指南)
  • Bootstrap制作后台管理系统布局 Bootstrap如何搭建Dashboard框架.txt
  • SITS2026正式发布:2024年唯一经Gartner交叉验证的生成式AI应用成熟度评估框架
  • 《SAP FICO系统配置从入门到精通共40篇》019、内部订单(IO)管理:订单类型与结算规则
  • 雀魂Mod Plus终极教程:三步解锁全角色皮肤的免费指南
  • 新加坡榜鹅:从蛮荒之地到AI创新热土,自动驾驶与智慧小镇共筑科技新篇
  • C++ vs PHP vs Python:三大编程语言终极对比
  • 国泰君安国际荣获2025年度离岸中资基金大奖“货币市场基金 - 港币(1年)”冠军
  • 逆向工程实战:解码大众奥迪碟盒通信协议,打造个性化车载音频中枢
  • 被n整除的n位数
  • HBA卡深度解析:从基础原理到企业级应用实战
  • 走了弯路的捷径——V5 Q-Learning的诱惑与反思
  • 2026 - 解决Typora文档内快捷键失效(与其他软件快捷键冲突)