当前位置: 首页 > news >正文

从“问对问题”到“建对系统”:Prompt、Context、Loop、Harness 工程的演变与理解

从“问对问题”到“建对系统”:Prompt、Context、Loop、Harness 工程的演变与理解

引言:AI 工程化的四次跃迁

2023 年,我们学会了一件事:写一个好的提示词。2025 年,我们发现提示词只是冰山一角,上下文才是关键。2026 年,行业共识是:真正的竞争力不在模型,不在提示词,而在那个包裹模型运行的“机械外壳”——Harness。而贯穿这一切的,是让 AI 真正“动起来”的核心引擎——Agent Loop

这四者并非彼此取代,而是一个层层递进、不断深化的工程演进路径:

Prompt(说什么)→ Context(看什么)→ Loop(怎么动)→ Harness(在什么系统里动)

本文将带你完整走一遍这四次进化的逻辑:它们分别解决了什么问题、如何定义、以及如何理解它们在 AI 工程中的位置。

一、Prompt Engineering(2022-2024):学会“问对问题”

定义

Prompt Engineering(提示词工程)是研究如何通过精心设计的输入文本,最大限度地激发大语言模型正确能力的工程实践。它本质上处理的是人类意图到模型输入之间的接口

Prompt Engineering 关注的核心问题是:“怎么表达任务?”

核心手段

在 GPT 刚刚走入大众视野的那段时间,Prompt Engineering 是最炙手可热的技能,涌现了大量经典技术:

  • 零样本提示(Zero-shot):直接告诉模型做什么,不给例子
  • 少样本提示(Few-shot):给几个输入-输出例子,让模型“意会”规律
  • 思维链(Chain-of-Thought):引导模型一步步推理,而非直接跳结论
  • 角色扮演(Role Prompting):给模型设定身份(如“你是一位资深架构师”)
  • 提示链(Prompt Chaining):把复杂任务拆成多个小提示串联执行
理解

Prompt Engineering 的核心价值在于**“表达”**——如何用措辞激活正确的模型行为。它按请求生效,无状态,优化的是单次输入-输出对。

它的局限性也很明显:Prompt 无法注入私有知识库,无法告知模型上周代码库里发生了什么,无法处理跨会话的记忆,也无法取代权限系统或错误恢复逻辑。一旦任务要求模型调用工具、追踪状态或跨步骤协作,单靠 Prompt 撑不住整个系统。

一句话理解:Prompt Engineering 是“问对问题”的艺术——但只会问问题,还远不够。

二、Context Engineering(2024-2025):治理“信息环境”

定义

Context Engineering(上下文工程)关注的是模型在执行任务时看到什么——即模型在做出每个决策时能够注意到的全部信息。

Anthropic 给出了直接的定义:当 Agent 朝向更长的时间跨度和多轮推理演进时,核心挑战变成了**“管理整个上下文状态:系统指令、工具、MCP 服务器、外部数据、消息历史”**。

Prompt Engineering 问的是“怎么表达任务”,Context Engineering 问的是**“模型工作时应该处于什么信息环境里”**。

核心洞察

模型每次推理时看到的内容,远不止你写的那段话:

你看到的 prompt: "帮我审查这段代码" 模型实际看到的 context: ├── 系统提示词(System Prompt) ├── 对话历史(多轮消息) ├── 检索到的文档(RAG 注入) ├── 工具调用的返回结果 ├── 项目文件内容 └── 你的 prompt: "帮我审查这段代码"
核心手段

Context Engineering 的核心技术包括:

  • RAG(检索增强生成):从知识库中动态注入相关文档
  • System Prompt 设计:全局约束和角色定义
  • 上下文压缩:超长对话中保留关键信息、丢弃噪音
  • 多 Agent 上下文共享:多个 Agent 之间传递结构化信息
理解

Context Engineering 的兴起有一个根本原因:模型的上下文窗口在急速扩展。从 2018-2019 年 512-1024 个 token,到如今百万甚至千万级别。窗口越长,模型越能处理论文、代码库,甚至完整项目文档。

但更大的窗口也带来了新的挑战:信息环境污染——上下文越长,模型越容易被无关内容干扰。好的 Agent 输出和差的 Agent 输出之间的区别,往往与原始请求的措辞无关,而取决于关键信号是否在正确的时刻出现在窗口内

一句话理解:Context Engineering 是“给 AI 配眼镜”——确保它在做决定时能看到所有该看的信息。

三、Agent Loop(2022 至今):让 AI“动起来”的引擎

定义

Agent Loop(智能体循环)是每一个运行中的 AI Agent 背后都在执行的核心循环。这个循环决定了 Agent 能否正确理解任务、调用工具、处理结果,并在多轮迭代中自主完成任务。

如果说 Prompt 和 Context 解决的是“输入什么”的问题,那么Agent Loop 解决的是“怎么运转”的问题——它是让 AI 从“回答问题”变成“执行任务”的核心引擎。

起源:ReAct 范式

2022 年 10 月,Google Research 和普林斯顿大学发表了论文“ReAct: Synergizing Reasoning and Acting in Language Models”,提出了一个影响深远的核心循环:

Thought(思考)→ Action(行动)→ Observation(观察)→ Thought → …

具体来说:

  • Thought:LLM 生成推理文本,分析当前状态,决定下一步做什么
  • Action:LLM 输出结构化的动作指令(如搜索、调用 API)
  • Observation:外部环境执行动作并返回结果,LLM 将其作为下一轮输入

ReAct 的价值在于,它解决了纯推理(逻辑清晰但无法与外部交互)和纯行动(能获取信息但缺乏规划)各自的缺陷。

从论文到工程:五阶段架构

从 ReAct 的“Thought-Action-Observation”三元组,到生产级实现,本质上是将论文概念映射到了工程实践中。一个生产级 Agent Loop 的通用架构包含五个阶段:

  1. 接收输入:获取用户提示、System Prompt、工具定义和历史对话
  2. 状态评估:LLM 分析当前状态,决定下一步行动
  3. 工具调用:执行 LLM 请求的一个或多个工具
  4. 结果收集:将工具执行结果反馈给 LLM
  5. 循环或终止:重复步骤 2-4,直到任务完成
理解

Agent Loop 的演进代表了 AI 从“被动响应”到“主动执行”的根本转变。2025 年被普遍认为是Agent 的元年

标志性事件包括:Anthropic 在 2025 年底将“Claude Code SDK”更名为“Claude Agent SDK”,标志着从“代码辅助工具”到“通用 Agent 框架”的定位转变;OpenAI 推出了 Agents SDK。

ReAct 不是终点,而是起点。2025 年出现了 LLMCompiler 等新兴方案,将 ReAct Loop 编译为并行任务图以减少等待时间。

一句话理解:Agent Loop 是 AI 的“心脏”——让它不再只是回答问题,而是能主动完成任务。

四、Harness Engineering(2026 至今):构建“可信执行系统”

定义

Harness Engineering(驾驭工程)是 AI 工程化的第三代范式。Harness 的原意是“马具”——套在马身上的缰绳、嚼子和鞍具。马提供动力,但马具控制方向、速度和安全。

在 AI 语境中:模型是马,Harness 是缰绳。模型提供智能,Harness 提供控制。

研究团队对 Harness 工程作了更明确的范围界定:它并非泛指与大语言模型相关的所有外围系统,而是指模型外层的工程化运行框架。它通过执行环境、工具接口、上下文控制、任务编排、可观测性、评估反馈和治理机制,将模型调用组织成可执行、可控制、可追踪的任务流程。

为什么需要 Harness?

多数 AI 编码的失败并非模型的失败。模型会写代码。问题几乎总出在起点:进入了错误的状态又缺乏自我纠正的机制。HumanLayer 的工程团队观察编码 Agent 以各种方式失败——忽略指令、不经确认就执行危险命令、在简单任务上陷入死循环——得出了一个结论:

“这不是模型问题,是配置问题。”

当 AI 开始尝试直接修改生产环境的代码库、调用真实的金融 API 或操作工业设备时,单纯的信息管理已不足以保证安全。Harness 正是为此而生。

Harness 的七个构件(ETCLOVG)

卡内基梅隆大学、耶鲁大学等研究团队提出了ETCLOVG 七层分类体系

层级功能
执行环境(Execution Environment)决定 Agent 代码在哪里运行、受到什么约束
工具接口(Tool Interface)定义外部能力如何被描述、发现和调用
上下文管理(Context Management)决定模型在短期、会话级和持久化层面能看到什么
生命周期与编排(Lifecycle & Orchestration)组织状态读写控制流,覆盖单 Agent 到多 Agent 协作
可观测性(Observability)捕获轨迹、成本、失败和可靠性信号
验证(Verification)将任务转化为评估、失败归因和回归反馈
治理(Governance)权限、身份、策略、安全加固、审计和人工监督
理解

Harness Engineering 的崛起有一个清晰的演进时间线:

  • 2022-2024:Prompt Engineering— 关注如何表达需求
  • 2025:Context Engineering— 关注每一步该向模型提供什么上下文
  • 2026:Harness Engineering— 关注模型运行其中的整个系统

Harness 的核心价值在于:在不改模型权重的情况下,仅调整 harness 层本身,就可能显著改变 Agent 在 coding 和 terminal benchmark 上的表现

一句话理解:Harness Engineering 是“给 AI 套上缰绳”——确保强大的模型力量沿着正确的轨道释放。

总结:四层架构的关系

层次时间核心问题一句话理解
Prompt2022-2024怎么表达任务?问对问题
Context2024-2025模型看到什么信息?配好眼镜
Loop2022 至今模型怎么自主运转?装好心脏
Harness2026 至今模型在什么系统里运行?套好缰绳

这四者不是竞争关系,而是分层协同的关系:

Prompt 优化表达,Context 管理信息环境,Loop 驱动自主执行,Harness 构建可信系统。

模型的智能是引擎,而这四层工程实践是让引擎真正驱动车轮的传动系统、导航系统和安全系统。理解这四者的演变逻辑,是理解 AI 工程化未来方向的关键。

http://www.jsqmd.com/news/1076154/

相关文章:

  • CSRF攻击原理深度解析:从身份冒用到防御实战
  • Appsmith:开源低代码平台,快速构建内部工具
  • 7个已落地AI工程方向:轻量化部署、RAG增强、多模态理解等实操指南
  • 人形机器人全身动作跟踪算法解析:从参考动作、奖励函数到真实机器人部署
  • 在长度2N的数组中找出重复N次的元素(一)
  • 多级蒙特卡洛梯度估计:原理、复杂度分析与在随机优化中的应用
  • 深圳登报声明去哪里办理?深圳登报声明要多少钱?
  • MitoHiFi:5步掌握PacBio HiFi线粒体基因组组装完整指南
  • 向量空间 JBoltAI TokUI 底层设计理念与技术演进
  • PUBG罗技鼠标压枪宏:三步实现终极后坐力控制的完整指南
  • okbiye AI 写作数据分析:自动生成 docx 实证报告,解决社科论文数据处理难题
  • 智能家居:基于单点薄膜压力传感的防盗预警/门状态感应方案
  • 高校专业课融入AI实操找哪家?看实战云的解决方案
  • 三步搞定视频水印:AI智能批量去除的终极指南
  • SubFinder:智能字幕搜索工具,让影视观看体验更完美
  • DeepSeek / 通义千问 / 文心一言多模型统一调用的最佳实践
  • WAVES 2026 大会聚焦 AI 投资:嘉宾热议各赛道趋势、创业者特质与未来机会
  • Flowframes深度解析:专业AI视频插值与帧率提升实战指南
  • 【毕业设计】基于 SpringBoot+UniApp 的冀鲁豫智慧旅游出行系统设计与实现 基于 SpringBoot+UniApp 的冀鲁豫旅游资源展示平台(源码+文档+远程调试,全bao定制等)
  • 小程序毕设选题推荐:基于 SpringBoot+Android 的商户点餐管理系统设计与实现 基于 SpringBoot+Android 的移动【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 【Spring AI Alibaba 实战】大模型也有“金鱼记忆”?详解短时记忆(Chat Memory)核心原理与生产级实践
  • Struts2全版本漏洞检测工具实战:原理、应用与自动化集成
  • 读完这篇,你能徒手写出与 llama.cpp 输出完全一致的 4-bit 量化代码
  • LinkSwift:高效网盘直链解析技术方案与跨平台下载优化实践
  • Sunshine 2025版:自托管游戏串流服务器的架构演进与性能优化
  • 告别伪流式渲染:字符级状态机重塑AI对话富UI交互体验
  • 利用伴随矩阵判定线性递推数列的对数凹性与无限对数凹性
  • Work Review 工作轨迹记录器V1.0.52 更新解读
  • P89LPC9301/931A1 I2C与SPI通信协议实战:从寄存器操作到代码避坑
  • SpaceX轨道AI数据中心“Starmind”来袭,100万颗卫星打造全球独立AI算力闭环!