从“问对问题”到“建对系统”:Prompt、Context、Loop、Harness 工程的演变与理解
从“问对问题”到“建对系统”:Prompt、Context、Loop、Harness 工程的演变与理解
引言:AI 工程化的四次跃迁
2023 年,我们学会了一件事:写一个好的提示词。2025 年,我们发现提示词只是冰山一角,上下文才是关键。2026 年,行业共识是:真正的竞争力不在模型,不在提示词,而在那个包裹模型运行的“机械外壳”——Harness。而贯穿这一切的,是让 AI 真正“动起来”的核心引擎——Agent Loop。
这四者并非彼此取代,而是一个层层递进、不断深化的工程演进路径:
Prompt(说什么)→ Context(看什么)→ Loop(怎么动)→ Harness(在什么系统里动)
本文将带你完整走一遍这四次进化的逻辑:它们分别解决了什么问题、如何定义、以及如何理解它们在 AI 工程中的位置。
一、Prompt Engineering(2022-2024):学会“问对问题”
定义
Prompt Engineering(提示词工程)是研究如何通过精心设计的输入文本,最大限度地激发大语言模型正确能力的工程实践。它本质上处理的是人类意图到模型输入之间的接口。
Prompt Engineering 关注的核心问题是:“怎么表达任务?”。
核心手段
在 GPT 刚刚走入大众视野的那段时间,Prompt Engineering 是最炙手可热的技能,涌现了大量经典技术:
- 零样本提示(Zero-shot):直接告诉模型做什么,不给例子
- 少样本提示(Few-shot):给几个输入-输出例子,让模型“意会”规律
- 思维链(Chain-of-Thought):引导模型一步步推理,而非直接跳结论
- 角色扮演(Role Prompting):给模型设定身份(如“你是一位资深架构师”)
- 提示链(Prompt Chaining):把复杂任务拆成多个小提示串联执行
理解
Prompt Engineering 的核心价值在于**“表达”**——如何用措辞激活正确的模型行为。它按请求生效,无状态,优化的是单次输入-输出对。
它的局限性也很明显:Prompt 无法注入私有知识库,无法告知模型上周代码库里发生了什么,无法处理跨会话的记忆,也无法取代权限系统或错误恢复逻辑。一旦任务要求模型调用工具、追踪状态或跨步骤协作,单靠 Prompt 撑不住整个系统。
一句话理解:Prompt Engineering 是“问对问题”的艺术——但只会问问题,还远不够。
二、Context Engineering(2024-2025):治理“信息环境”
定义
Context Engineering(上下文工程)关注的是模型在执行任务时看到什么——即模型在做出每个决策时能够注意到的全部信息。
Anthropic 给出了直接的定义:当 Agent 朝向更长的时间跨度和多轮推理演进时,核心挑战变成了**“管理整个上下文状态:系统指令、工具、MCP 服务器、外部数据、消息历史”**。
Prompt Engineering 问的是“怎么表达任务”,Context Engineering 问的是**“模型工作时应该处于什么信息环境里”**。
核心洞察
模型每次推理时看到的内容,远不止你写的那段话:
你看到的 prompt: "帮我审查这段代码" 模型实际看到的 context: ├── 系统提示词(System Prompt) ├── 对话历史(多轮消息) ├── 检索到的文档(RAG 注入) ├── 工具调用的返回结果 ├── 项目文件内容 └── 你的 prompt: "帮我审查这段代码"核心手段
Context Engineering 的核心技术包括:
- RAG(检索增强生成):从知识库中动态注入相关文档
- System Prompt 设计:全局约束和角色定义
- 上下文压缩:超长对话中保留关键信息、丢弃噪音
- 多 Agent 上下文共享:多个 Agent 之间传递结构化信息
理解
Context Engineering 的兴起有一个根本原因:模型的上下文窗口在急速扩展。从 2018-2019 年 512-1024 个 token,到如今百万甚至千万级别。窗口越长,模型越能处理论文、代码库,甚至完整项目文档。
但更大的窗口也带来了新的挑战:信息环境污染——上下文越长,模型越容易被无关内容干扰。好的 Agent 输出和差的 Agent 输出之间的区别,往往与原始请求的措辞无关,而取决于关键信号是否在正确的时刻出现在窗口内。
一句话理解:Context Engineering 是“给 AI 配眼镜”——确保它在做决定时能看到所有该看的信息。
三、Agent Loop(2022 至今):让 AI“动起来”的引擎
定义
Agent Loop(智能体循环)是每一个运行中的 AI Agent 背后都在执行的核心循环。这个循环决定了 Agent 能否正确理解任务、调用工具、处理结果,并在多轮迭代中自主完成任务。
如果说 Prompt 和 Context 解决的是“输入什么”的问题,那么Agent Loop 解决的是“怎么运转”的问题——它是让 AI 从“回答问题”变成“执行任务”的核心引擎。
起源:ReAct 范式
2022 年 10 月,Google Research 和普林斯顿大学发表了论文“ReAct: Synergizing Reasoning and Acting in Language Models”,提出了一个影响深远的核心循环:
Thought(思考)→ Action(行动)→ Observation(观察)→ Thought → …
具体来说:
- Thought:LLM 生成推理文本,分析当前状态,决定下一步做什么
- Action:LLM 输出结构化的动作指令(如搜索、调用 API)
- Observation:外部环境执行动作并返回结果,LLM 将其作为下一轮输入
ReAct 的价值在于,它解决了纯推理(逻辑清晰但无法与外部交互)和纯行动(能获取信息但缺乏规划)各自的缺陷。
从论文到工程:五阶段架构
从 ReAct 的“Thought-Action-Observation”三元组,到生产级实现,本质上是将论文概念映射到了工程实践中。一个生产级 Agent Loop 的通用架构包含五个阶段:
- 接收输入:获取用户提示、System Prompt、工具定义和历史对话
- 状态评估:LLM 分析当前状态,决定下一步行动
- 工具调用:执行 LLM 请求的一个或多个工具
- 结果收集:将工具执行结果反馈给 LLM
- 循环或终止:重复步骤 2-4,直到任务完成
理解
Agent Loop 的演进代表了 AI 从“被动响应”到“主动执行”的根本转变。2025 年被普遍认为是Agent 的元年。
标志性事件包括:Anthropic 在 2025 年底将“Claude Code SDK”更名为“Claude Agent SDK”,标志着从“代码辅助工具”到“通用 Agent 框架”的定位转变;OpenAI 推出了 Agents SDK。
ReAct 不是终点,而是起点。2025 年出现了 LLMCompiler 等新兴方案,将 ReAct Loop 编译为并行任务图以减少等待时间。
一句话理解:Agent Loop 是 AI 的“心脏”——让它不再只是回答问题,而是能主动完成任务。
四、Harness Engineering(2026 至今):构建“可信执行系统”
定义
Harness Engineering(驾驭工程)是 AI 工程化的第三代范式。Harness 的原意是“马具”——套在马身上的缰绳、嚼子和鞍具。马提供动力,但马具控制方向、速度和安全。
在 AI 语境中:模型是马,Harness 是缰绳。模型提供智能,Harness 提供控制。
研究团队对 Harness 工程作了更明确的范围界定:它并非泛指与大语言模型相关的所有外围系统,而是指模型外层的工程化运行框架。它通过执行环境、工具接口、上下文控制、任务编排、可观测性、评估反馈和治理机制,将模型调用组织成可执行、可控制、可追踪的任务流程。
为什么需要 Harness?
多数 AI 编码的失败并非模型的失败。模型会写代码。问题几乎总出在起点:进入了错误的状态又缺乏自我纠正的机制。HumanLayer 的工程团队观察编码 Agent 以各种方式失败——忽略指令、不经确认就执行危险命令、在简单任务上陷入死循环——得出了一个结论:
“这不是模型问题,是配置问题。”
当 AI 开始尝试直接修改生产环境的代码库、调用真实的金融 API 或操作工业设备时,单纯的信息管理已不足以保证安全。Harness 正是为此而生。
Harness 的七个构件(ETCLOVG)
卡内基梅隆大学、耶鲁大学等研究团队提出了ETCLOVG 七层分类体系:
| 层级 | 功能 |
|---|---|
| 执行环境(Execution Environment) | 决定 Agent 代码在哪里运行、受到什么约束 |
| 工具接口(Tool Interface) | 定义外部能力如何被描述、发现和调用 |
| 上下文管理(Context Management) | 决定模型在短期、会话级和持久化层面能看到什么 |
| 生命周期与编排(Lifecycle & Orchestration) | 组织状态读写控制流,覆盖单 Agent 到多 Agent 协作 |
| 可观测性(Observability) | 捕获轨迹、成本、失败和可靠性信号 |
| 验证(Verification) | 将任务转化为评估、失败归因和回归反馈 |
| 治理(Governance) | 权限、身份、策略、安全加固、审计和人工监督 |
理解
Harness Engineering 的崛起有一个清晰的演进时间线:
- 2022-2024:Prompt Engineering— 关注如何表达需求
- 2025:Context Engineering— 关注每一步该向模型提供什么上下文
- 2026:Harness Engineering— 关注模型运行其中的整个系统
Harness 的核心价值在于:在不改模型权重的情况下,仅调整 harness 层本身,就可能显著改变 Agent 在 coding 和 terminal benchmark 上的表现。
一句话理解:Harness Engineering 是“给 AI 套上缰绳”——确保强大的模型力量沿着正确的轨道释放。
总结:四层架构的关系
| 层次 | 时间 | 核心问题 | 一句话理解 |
|---|---|---|---|
| Prompt | 2022-2024 | 怎么表达任务? | 问对问题 |
| Context | 2024-2025 | 模型看到什么信息? | 配好眼镜 |
| Loop | 2022 至今 | 模型怎么自主运转? | 装好心脏 |
| Harness | 2026 至今 | 模型在什么系统里运行? | 套好缰绳 |
这四者不是竞争关系,而是分层协同的关系:
Prompt 优化表达,Context 管理信息环境,Loop 驱动自主执行,Harness 构建可信系统。
模型的智能是引擎,而这四层工程实践是让引擎真正驱动车轮的传动系统、导航系统和安全系统。理解这四者的演变逻辑,是理解 AI 工程化未来方向的关键。
