当前位置：首页 > news >正文

从Prompt→Context→Harness Engineering，聊聊过去三年的变与不变

news 2026/6/6 4:24:15

2026年初，AI圈和OpenClaw一起爆火的有一个晦涩难懂的新词儿，叫做Harness Engineering。这是一个复杂而抽象的概念，各种中文翻译都得其意不得其神。

我并没有纠结于这个概念在中文圈子应该叫什么，而是在过去的两年多一直在身体力行地实践Harness：

如何设计好一个SystemPrompt？如何定义并优化一个Skill使其效果性能做到极致？如何用好ClaudeCode？如何用AI重塑团队协同开发的效能？如果用AI Agent引擎在各种工作场景中造出一个又一个的符合上岗需求的“人” ？

每当回顾自己的这些工作，从最初针对模型API调优PE（Prompt Engineering），到后来结合Rag，MCP，文件系统的CE（Context Engineering）调优，再到现在为“龙虾们”构建环境的最优解。有一个问题一直在我脑子里打转：

从PE→CE→HE→*E，变的是什么？不变的又是什么？

这几天总算腾出点时间来码码字系统思考下这个问题。想通了才发现：

这三个词其实在说同一件事。它们只是在不同的高度，望向同一个问题。

那个始终没变的东西

先说答案。

这三年，不管圈子里造了多少新词、发了多少论文、开了多少发布会，我们真正在解决的问题从头到尾只有一个：

怎么让 AI 在该做决定（推理）的那一刻，脑子里（上下文里）刚好装着对的东西。

就这一件事，朴素到不能再朴素。

仔细想想，在输入框里加一句"Let’s think step by step"，PE准确率涨了。这是在干嘛？是在通过措辞，把"请一步步想"这个信息塞进模型的脑子。

一个 RAG 系统从向量库里拉出三段文档拼进上下文，是在干嘛？是在通过管道，把"这个问题相关的背景知识"塞进模型的脑子。

给 Agent 配好工具权限、错误恢复机制、质量评估流程，是在干嘛？是在通过环境设计，确保模型在每一步决策时，既看得到该看的，又做不了不该做的。

手段完全不同。目的一模一样。

Harrison Chase 说：

Context Engineering 是"在正确的时机、以正确的格式，向模型提供正确的信息和工具"。

这个定义其实不只适用于 CE，把"信息和工具"换成"措辞"就是 PE，换成"整个运行环境"就是 HE。

三个词，一个内核。像三层同心圆，圆心始终没动。

我跟很多做 AI 应用的朋友聊过这个判断，他们的反应出奇一致：先愣一下，然后说"对，好像确实是这样"。有个做 RAG 的哥们说得更直接：“我每天干的活换了三遍说法，但我打开电脑之后解决的问题从来没换过。”

这个"不变"重要吗？我觉得非常重要。因为它意味着我们没有在原地打转。三年了，问题没变，说明这个问题是真问题，不是被炒作出来的伪命题。它不会因为下一个新词的出现而消失，不管 2027 年这个东西叫什么 Engineering，它要解决的还是同一件事。

但如果问题没变，为什么要换词？

因为变的是别的东西。

变的第一层：你在调什么

最直观的变化，是操作对象变了。

Prompt Engineering 时代，你调的是措辞。字面意思就是改字。“你是助手"改成"你是一个有二十年临床经验的主治医师”，回答就变专业了。给两个例子，格式就对了。温度调 0.7，XML 标签包起来，system prompt 要这么写不能那么写。

LinkedIn 上有人给 Prompt Engineer 标了 30 万美金年薪。社区里到处是秘籍。那段时间有一种"我掌握了魔法咒语"的快感。你跟模型之间的关系，就像给一个极其聪明但对你一无所知的人写信。信写得好，他就表现好；信写得差，他就跑偏。整件事的关键就在你笔下的那几十个字。

Context Engineering 时代，你调的是信息流。哪些文档该喂进去、什么时候喂、以什么格式喂、上下文窗口快满了怎么取舍。Shopify 的 CEO Tobi Lütke 在推上写了一句：

“I really like the term ‘context engineering’ over prompt engineering”，

Karpathy 转了加个"+1"，一个词就立住了。为什么？因为2024年所有人都憋了一年没说清楚的感觉被这个词戳中了：我们管的根本不是话术，我们管的是信息。

Harness Engineering 时代，你调的是整个世界。OpenAI 的工程师 Ryan Lopopolo 写过一句后来被引用无数次的话：“Agents aren’t hard; the Harness is hard.” Agent 不难，难的是围绕 Agent 的那一整套东西：工具权限、纠错恢复、质量评估、状态持久化、安全护栏。你不是在调一个输入，你是在造一个 Agent 能活在里面的世界。

从字到信息流到环境。操作粒度在变大，操作对象在升维。

但注意，这三层不是替代关系，是套娃。

HE 包着 CE，CE 包着 PE。你在设计 harness 的时候，上下文管理是其中一个子系统；你在管上下文的时候，prompt 怎么写是其中一个细节。

不是 PE 过时了，是 PE 被装进了更大的框架里。就像学会了系统架构不代表不用写好代码，只是写代码变成了更大图景里的一个局部。

变的第二层：你是谁

比操作对象更深的变化，是操作者的角色变了。

PE 时代，你是操作员。

亲手打磨每一句话，一个字一个字试，改了再改。像手工匠人，活儿好不好全凭手艺，你的全部武器就是你的遣词造句。

CE 时代，你是信息管理员。

你不再逐字斟酌，而是在更高的层面做选择：这个信息该不该让模型看到？什么时候看到？以什么格式看到？上下文窗口从 4K 涨到 100K 再到 1M，但"能塞"和"该塞"完全是两回事。你把 100 页文档一股脑倒进去，模型反而更容易忽略关键信息。研究发现信息放在开头还是中间，效果差距巨大。

你不可能通过给一个人更多参考资料来让他做出更好的决策。资料太多，淹没了。重点是哪些资料、什么顺序、什么时候给。这是管理员的活，不是操作员的活。

HE 时代，你是架构师。

你甚至不直接管信息了，你设计规则和环境。Agent 能调哪些 API？危险操作需不需要人签字？写错代码了怎么回滚？卡了二十分钟谁来叫停？Anthropic 做过研究，结论挺扎心的：模型没法可靠地评估自己的输出，你得另外安排一个"评委"。

OpenAI 自己踩过的坑特别说明问题：他们发现最大的障碍不是模型笨，是环境没定义好。Agent 的能力在那儿摆着，但它缺少完成目标所需要的工具和结构。

然后他们发现了一件反直觉的事：约束越多，Agent 反而干得越好。

不是那种"五十页操作手册"的约束。规则太多跟没规则一样，Agent 要么全忽略要么开始优化错误的目标。但如果你把约束做成结构化的，比如linter 自动检查、CI 流程卡控、权限分级。这样Agent 的解空间缩小了，反而更容易找到正确路径。

这跟管人一模一样。你不会给一个优秀工程师写五十页操作手册。你给他清晰的架构规范、可靠的测试流程和及时的 code review，然后闭嘴让他干。好的管理者从来不是控制欲最强的那个人，而是环境设计得最好的那个人。

操作员 → 信息管理员 → 架构师。每退一步，离具体操作更远，离"这个世界应该长什么样"更近。

人并没有变得不重要。恰恰相反——人的杠杆在变大。操作员影响的是一次对话的质量，信息管理员影响的是一个任务的成败，架构师影响的是一整个系统的上限。你每后退一步，你的一个决策所波及的范围就大一个量级。

变的第三层：为什么必须变

前两层回答了"变了什么"。但更重要的问题是：为什么必须变？

不是因为人闲着没事爱造新词。是因为问题的规模在膨胀。

PE 时代，AI 的典型任务是回答一个问题。一轮对话，一进一出。你精心写好 prompt，它给你一个回答，完事。这个尺度下，打磨措辞就够了。

但当你试着让 AI 处理一个真实的工作任务，需要查十份文档、对比三个方案、参考上周的对话记录。你会发现，一条 prompt 塞不下这些东西。你精心设计的措辞，面对真实世界的复杂度，就像拿一张便签纸去指挥一场战役。

不是 prompt 写得不好，是 prompt 这个容器，太小了。

所以 CE 出现了。它把容器从一句话扩展成一整套管道：RAG、记忆系统、动态上下文组装。能应付的复杂度上了一个量级。

但很快又撞墙了。因为 AI 开始干一件更新的事：不只是回答一个问题，而是持续工作好几个小时。写代码、跑测试、查 bug、提 PR。一个任务分十步，每步要用不同的工具，中间可能走进死胡同需要回退。

这时候光让模型"看到对的信息"不够了。它还需要知道能干什么、不能干什么、错了怎么办、谁来判断它干得好不好。信息管理解决不了这些。你需要设计的是一个环境。

所以 HE 出现了。

看到规律了吗？不是新词在追时髦，是问题的复杂度在逼着解法升维。

一个问题、一个回答，措辞就够了
一个任务、多轮交互，得管好信息流
一个目标、持续运行，你得造一个世界

问题没变，问题的规模在变。规模一变，同样的内核就需要更高维度的解法。

这才是三个词背后真正的逻辑：不是否定前一个，是在更大的尺度上重新发明同一个东西。

就像你学会了给一个人写备忘录，然后发现要管一个团队得建信息系统，再然后发现要管一家公司得设计组织架构。备忘录过时了吗？没有，它被包进了信息系统里。信息系统过时了吗？没有，它被包进了组织架构里。每一层都在，只是变成了更大框架的一个局部。

所以当有人问我"PE 是不是过时了"，我的回答是：PE 没有过时，PE 被装进了 CE 里；CE 也不会过时，CE 被装进了 HE 里。

你在设计 harness 的时候，上下文管理是其中一个子系统；你在管上下文的时候，prompt 怎么写是其中一个细节。就像学会了系统架构不代表不用写好代码，只是写代码变成了更大图景里的一个局部。

他们是套娃，不是接力棒。

一个让人眩晕的推论

写到这里，其实可以收了。三个词、一个问题、解法在升维，这个结论已经够清晰了。

但我想多说一层。

你有没有注意到，这三年的变化有一条暗线：我们以为自己在优化 AI 的能力，但其实一直在优化 AI 所处的环境。

PE 是在调整措辞，模型的直接输入。CE 是在筛选信息，模型的感知范围。HE 是在设计世界，模型的整个生存空间。

这让我想到柏拉图的洞穴。洞穴里的人只能看到墙上的影子，以为那就是现实。走出洞穴的人看到了投射影子的火光和物体。再往外走，看到了太阳本身。

PE 是在调整影子的形状。CE 是在选择哪些物体放在火光前面。HE 是在设计整个洞穴，光源的位置、墙壁的角度、什么东西能进来什么不能。

这就引向一个让人有点眩晕的问题：

一个智能体的表现，究竟在多大程度上取决于它自身使用的模型能力，又在多大程度上取决于它被放置其中的环境？

三年前我们觉得答案是"能力"，所以拼命调 prompt 去激发模型的潜力。三年后我们越来越倾向于"环境"，所以开始造 harness，造整个世界。

也许智能从来不是某个主体的独立属性。它是主体与环境之间的一种共振。

如果这个推论成立，那我们花三年绕的这一大圈，绕出来的不只是技术进步，还有一个更深的认知：

你以为在调 AI，其实在造世界。

三年前写咒语，现在造世界。问题始终是那一个。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～