当前位置：首页 > news >正文

从“问对问题”到“建对系统”：Prompt、Context、Loop、Harness 工程的演变与理解

news 2026/6/25 17:29:35

从“问对问题”到“建对系统”：Prompt、Context、Loop、Harness 工程的演变与理解

引言：AI 工程化的四次跃迁

2023 年，我们学会了一件事：写一个好的提示词。2025 年，我们发现提示词只是冰山一角，上下文才是关键。2026 年，行业共识是：真正的竞争力不在模型，不在提示词，而在那个包裹模型运行的“机械外壳”——Harness。而贯穿这一切的，是让 AI 真正“动起来”的核心引擎——Agent Loop。

这四者并非彼此取代，而是一个层层递进、不断深化的工程演进路径：

Prompt（说什么）→ Context（看什么）→ Loop（怎么动）→ Harness（在什么系统里动）

本文将带你完整走一遍这四次进化的逻辑：它们分别解决了什么问题、如何定义、以及如何理解它们在 AI 工程中的位置。

一、Prompt Engineering（2022-2024）：学会“问对问题”

定义

Prompt Engineering（提示词工程）是研究如何通过精心设计的输入文本，最大限度地激发大语言模型正确能力的工程实践。它本质上处理的是人类意图到模型输入之间的接口。

Prompt Engineering 关注的核心问题是：“怎么表达任务？”。

核心手段

在 GPT 刚刚走入大众视野的那段时间，Prompt Engineering 是最炙手可热的技能，涌现了大量经典技术：

零样本提示（Zero-shot）：直接告诉模型做什么，不给例子
少样本提示（Few-shot）：给几个输入-输出例子，让模型“意会”规律
思维链（Chain-of-Thought）：引导模型一步步推理，而非直接跳结论
角色扮演（Role Prompting）：给模型设定身份（如“你是一位资深架构师”）
提示链（Prompt Chaining）：把复杂任务拆成多个小提示串联执行

理解

Prompt Engineering 的核心价值在于**“表达”**——如何用措辞激活正确的模型行为。它按请求生效，无状态，优化的是单次输入-输出对。

它的局限性也很明显：Prompt 无法注入私有知识库，无法告知模型上周代码库里发生了什么，无法处理跨会话的记忆，也无法取代权限系统或错误恢复逻辑。一旦任务要求模型调用工具、追踪状态或跨步骤协作，单靠 Prompt 撑不住整个系统。

一句话理解：Prompt Engineering 是“问对问题”的艺术——但只会问问题，还远不够。

二、Context Engineering（2024-2025）：治理“信息环境”

定义

Context Engineering（上下文工程）关注的是模型在执行任务时看到什么——即模型在做出每个决策时能够注意到的全部信息。

Anthropic 给出了直接的定义：当 Agent 朝向更长的时间跨度和多轮推理演进时，核心挑战变成了**“管理整个上下文状态：系统指令、工具、MCP 服务器、外部数据、消息历史”**。

Prompt Engineering 问的是“怎么表达任务”，Context Engineering 问的是**“模型工作时应该处于什么信息环境里”**。

核心洞察

模型每次推理时看到的内容，远不止你写的那段话：

你看到的 prompt: "帮我审查这段代码" 模型实际看到的 context: ├── 系统提示词（System Prompt） ├── 对话历史（多轮消息） ├── 检索到的文档（RAG 注入） ├── 工具调用的返回结果 ├── 项目文件内容 └── 你的 prompt: "帮我审查这段代码"

核心手段

Context Engineering 的核心技术包括：

RAG（检索增强生成）：从知识库中动态注入相关文档
System Prompt 设计：全局约束和角色定义
上下文压缩：超长对话中保留关键信息、丢弃噪音
多 Agent 上下文共享：多个 Agent 之间传递结构化信息

理解

Context Engineering 的兴起有一个根本原因：模型的上下文窗口在急速扩展。从 2018-2019 年 512-1024 个 token，到如今百万甚至千万级别。窗口越长，模型越能处理论文、代码库，甚至完整项目文档。

但更大的窗口也带来了新的挑战：信息环境污染——上下文越长，模型越容易被无关内容干扰。好的 Agent 输出和差的 Agent 输出之间的区别，往往与原始请求的措辞无关，而取决于关键信号是否在正确的时刻出现在窗口内。

一句话理解：Context Engineering 是“给 AI 配眼镜”——确保它在做决定时能看到所有该看的信息。

三、Agent Loop（2022 至今）：让 AI“动起来”的引擎

定义

Agent Loop（智能体循环）是每一个运行中的 AI Agent 背后都在执行的核心循环。这个循环决定了 Agent 能否正确理解任务、调用工具、处理结果，并在多轮迭代中自主完成任务。

如果说 Prompt 和 Context 解决的是“输入什么”的问题，那么Agent Loop 解决的是“怎么运转”的问题——它是让 AI 从“回答问题”变成“执行任务”的核心引擎。

起源：ReAct 范式

2022 年 10 月，Google Research 和普林斯顿大学发表了论文“ReAct: Synergizing Reasoning and Acting in Language Models”，提出了一个影响深远的核心循环：

Thought（思考）→ Action（行动）→ Observation（观察）→ Thought → …

具体来说：

Thought：LLM 生成推理文本，分析当前状态，决定下一步做什么
Action：LLM 输出结构化的动作指令（如搜索、调用 API）
Observation：外部环境执行动作并返回结果，LLM 将其作为下一轮输入

ReAct 的价值在于，它解决了纯推理（逻辑清晰但无法与外部交互）和纯行动（能获取信息但缺乏规划）各自的缺陷。

从论文到工程：五阶段架构

从 ReAct 的“Thought-Action-Observation”三元组，到生产级实现，本质上是将论文概念映射到了工程实践中。一个生产级 Agent Loop 的通用架构包含五个阶段：

接收输入：获取用户提示、System Prompt、工具定义和历史对话
状态评估：LLM 分析当前状态，决定下一步行动
工具调用：执行 LLM 请求的一个或多个工具
结果收集：将工具执行结果反馈给 LLM
循环或终止：重复步骤 2-4，直到任务完成

理解

Agent Loop 的演进代表了 AI 从“被动响应”到“主动执行”的根本转变。2025 年被普遍认为是Agent 的元年。

标志性事件包括：Anthropic 在 2025 年底将“Claude Code SDK”更名为“Claude Agent SDK”，标志着从“代码辅助工具”到“通用 Agent 框架”的定位转变；OpenAI 推出了 Agents SDK。

ReAct 不是终点，而是起点。2025 年出现了 LLMCompiler 等新兴方案，将 ReAct Loop 编译为并行任务图以减少等待时间。

一句话理解：Agent Loop 是 AI 的“心脏”——让它不再只是回答问题，而是能主动完成任务。

四、Harness Engineering（2026 至今）：构建“可信执行系统”

定义

Harness Engineering（驾驭工程）是 AI 工程化的第三代范式。Harness 的原意是“马具”——套在马身上的缰绳、嚼子和鞍具。马提供动力，但马具控制方向、速度和安全。

在 AI 语境中：模型是马，Harness 是缰绳。模型提供智能，Harness 提供控制。

研究团队对 Harness 工程作了更明确的范围界定：它并非泛指与大语言模型相关的所有外围系统，而是指模型外层的工程化运行框架。它通过执行环境、工具接口、上下文控制、任务编排、可观测性、评估反馈和治理机制，将模型调用组织成可执行、可控制、可追踪的任务流程。

为什么需要 Harness？

多数 AI 编码的失败并非模型的失败。模型会写代码。问题几乎总出在起点：进入了错误的状态又缺乏自我纠正的机制。HumanLayer 的工程团队观察编码 Agent 以各种方式失败——忽略指令、不经确认就执行危险命令、在简单任务上陷入死循环——得出了一个结论：

“这不是模型问题，是配置问题。”

当 AI 开始尝试直接修改生产环境的代码库、调用真实的金融 API 或操作工业设备时，单纯的信息管理已不足以保证安全。Harness 正是为此而生。

Harness 的七个构件（ETCLOVG）

卡内基梅隆大学、耶鲁大学等研究团队提出了ETCLOVG 七层分类体系：

层级	功能
执行环境（Execution Environment）	决定 Agent 代码在哪里运行、受到什么约束
工具接口（Tool Interface）	定义外部能力如何被描述、发现和调用
上下文管理（Context Management）	决定模型在短期、会话级和持久化层面能看到什么
生命周期与编排（Lifecycle & Orchestration）	组织状态读写控制流，覆盖单 Agent 到多 Agent 协作
可观测性（Observability）	捕获轨迹、成本、失败和可靠性信号
验证（Verification）	将任务转化为评估、失败归因和回归反馈
治理（Governance）	权限、身份、策略、安全加固、审计和人工监督

理解

Harness Engineering 的崛起有一个清晰的演进时间线：

2022-2024：Prompt Engineering— 关注如何表达需求
2025：Context Engineering— 关注每一步该向模型提供什么上下文
2026：Harness Engineering— 关注模型运行其中的整个系统

Harness 的核心价值在于：在不改模型权重的情况下，仅调整 harness 层本身，就可能显著改变 Agent 在 coding 和 terminal benchmark 上的表现。

一句话理解：Harness Engineering 是“给 AI 套上缰绳”——确保强大的模型力量沿着正确的轨道释放。

总结：四层架构的关系

层次	时间	核心问题	一句话理解
Prompt	2022-2024	怎么表达任务？	问对问题
Context	2024-2025	模型看到什么信息？	配好眼镜
Loop	2022 至今	模型怎么自主运转？	装好心脏
Harness	2026 至今	模型在什么系统里运行？	套好缰绳