当前位置：首页 > news >正文

【AI面试八股文 Vol.1.2 | 专题7：Harness层】不是你在调模型，是模型被装进了 Harness：Harness 层对外暴露的接口抽象设计

news 2026/6/24 23:45:11

摘要：Harness 层是 Agent 工程化里最容易被忽略、但面试官最愿意深挖的部分。它不是模型本身，而是执行环境、上下文注入、监控和工具编排的容器。

某场技术面试里，面试官问了一个看起来很简单的问题：「你调 LangGraph 的时候，Harness 层负责什么？」

候选人愣了一下：「Harness？不就是那个跑模型的运行时吗？」

面试官没说话，又追问了一句：「那它和你写的业务逻辑之间，接口边界在哪里？」

沉默持续了三秒。

这个场景在 2026 年的 AI 工程师面试里越来越常见。

当越来越多的候选人能跑通一个 LangGraph Agent，能写 Tool Calling，能接上 RAG 链路，面试官开始把问题往深了推——他们想知道你到底是在调模型，还是真的理解了你脚下那层被叫做「Harness」的东西。

这篇专题就是来解决这个问题的。

Harness 层是 Agent 工程化里被低估最严重的一层：它不是模型，不是 Prompt，不是工具，是把模型装进去、让它安全运行、让它能断点恢复、让它能接受人工干预的那层接口抽象。

能把这个讲清楚的人，面试通过率显著更高。

三秒钟的沉默，代价是一道面试题

Harness 是什么：不是模型层，是装模型的容器层

概念边界的建立

大多数候选人接触 LangGraph 的路径是这样的：看文档 → 写 state → 定义 node → 跑通 → 项目写进简历。

这条路径里，Harness 几乎是不存在的——它像一个隐藏的系统进程，默默跑着，但没有出现在任何显式代码里。

这就造成了一个认知盲区：很多人以为「Agent 的核心是模型」，但从工程实现角度看，模型只是 Harness 层里的一个被调度的组件。Harness 层负责的事情要宽得多。

根据 LangChain 官方文档对 Harness capabilities 的定义1，一个完整的 Harness 层承担以下职责：

执行环境管理：为 Agent 分配隔离的运行时空间，包括内存边界、进程隔离和资源限制。2026 年 4 月 OpenAI Agents SDK 更新引入了 sandboxing 能力，核心目的就是让 Agent 能在受控的独立工作区里操作文件与代码，而不影响系统整体完整性2。
上下文注入：在模型执行前，将历史状态、用户偏好、系统指令等分层注入到模型上下文。Harness 负责决定在哪个节点注入什么级别的上下文，而不是让开发者手动拼接。
监控与调度：跟踪 Agent 的每一步执行状态，记录调用路径、性能数据和中间结果，在异常时触发重试或中断。
工具编排：管理工具注册、选择、调用和结果回传，负责工具间的依赖关系和调用顺序。
错误隔离：将 Agent 执行中产生的异常限制在局部域内，防止单步错误导致整个任务链崩溃。

这五项职责合在一起，定义了一个清晰的概念：Harness 是模型运行的容器，但不等于模型本身。

不是模型本身，这是关键边界

与模型层、与业务逻辑的关系

候选人在面试中最容易卡住的地方，是对 Harness 位置的描述不够精准。下面是一个常见的错误表述：

「Harness 就是 LangGraph 的 runtime，模型在里面跑。」

这个说法有两个问题：第一，把 Harness 等同于 runtime 过于狭隘，runtime 只是 Harness 的一部分；第二，没有说清楚 Harness 和业务逻辑的边界。

更准确的表述应该落在「接口抽象」上：

Harness 层对上是业务逻辑的接口，对下是模型调用的接口。

业务逻辑通过 Harness 暴露的标准化接口提交任务，Harness 负责调度模型、执行工具链、处理异常，最后把结构化结果返回给业务层。

这个双向边界定义，是面试官真正想听到的答案。

从 2026 年的技术趋势来看，Harness 层的独立价值正在被放大。

Anthropic 在 4 月 9 日发布的 Claude Managed Agents 服务，本质上就是在卖一层封装好的 Harness——它帮企业自动化了容器配置、状态管理、工具编排和安全规则配置这些原本需要工程团队自己实现的工作3。

这意味着「会不会设计 Harness 层」已经从加分项变成了岗位 JD 里的隐性要求。

Harness 层的四大核心能力矩阵

如果要在一张图里说清楚 Harness 层负责什么，下面的能力矩阵是面试应答的基础框架：

正文图解 1

这张图的视觉逻辑很简单：Harness 层是一个被业务逻辑「压着」、同时「压着」模型层的中间件。它的四大能力——调度、监控、错误隔离、上下文注入——是理解后续所有接口设计的底层框架。

这四件事没边界，面试就卡壳

Checkpoint 持久化：状态机能跨进程恢复，才是生产级 Agent

为什么需要 Checkpoint：一次线上事故说清楚

先讲一个在生产环境里真实发生过的场景：

某个基于 LangGraph 构建的客服 Agent，在执行一个多步骤退款流程时，中途因为网络超时导致请求中断。

用户重新发起请求时，Agent 从头开始执行，导致重复操作了不可逆的退款接口——用户账户被扣了两次款。

这个问题不是模型的问题，不是 Prompt 的问题，是状态恢复的问题。Agent 在中断前没有把当前执行状态持久化下来，重启后就失去了「退款流程已经执行到第三步」这个关键上下文。

这就是 Checkpoint 机制存在的意义：它让状态机能够在任意节点序列化当前状态，并在需要时跨进程恢复。

没有 Checkpoint 的 Agent，本质上是一个无法从断点继续的任务，任何一次中断都是从头开始。

Checkpoint 的接口抽象：三个核心操作

从 LangGraph 内部实现的视角，Checkpoint 对外暴露的接口可以抽象成三个核心操作：

写入（Save / Checkpoint）：在 Agent 执行过程中的指定节点，将当前 StateSnapshot 序列化并写入持久化存储。

这个操作需要回答：写入什么（完整状态 vs 增量状态）、写入哪里（内存 / 磁盘 / 远程 KV）、写入时机（每步写 vs 关键节点写）。

读取（Load / Restore）：从持久化存储中读取指定的历史状态快照，并将其反序列化为可继续执行的 State 对象。

这个操作需要回答：从哪里读（哪个 checkpoint ID）、恢复到哪个时间点、恢复后是否清空后续状态。

管理（List / Delete）：维护 checkpoint 版本的生命周期，包括查询历史版本列表、清理过期版本、设置保留策略。这是生产环境中容易被忽视但运维压力巨大的部分。

在实际项目中，Checkpoint 的写入频率和持久化策略需要权衡。

根据腾讯云 DeepAgents 实战案例的数据，引入 Checkpoint 持久化机制后，Agent 执行的总耗时增加约 4% 到 8%，但换来了可验证的状态恢复能力和生产级别的可靠性4。

这个 4% 到 8% 的开销，在大多数业务场景下是完全可接受的代价。

Checkpoint 与 StateGraph 的配合机制

LangGraph 的 StateGraph 是 Checkpoint 机制的基础运行载体。

StateGraph 在每次节点转换时，都会检查当前是否配置了 Checkpointer——如果有，就在这个节点自动触发状态快照写入。

这是一个重要的面试细节：Checkpoint 不是手动触发的，是 StateGraph 内部通过 Checkpointer 组件在指定节点自动写入的。

候选人如果能把这件事讲清楚，说明他对 LangGraph 的内部机制有实际研究，而不只是看了 demo 跑通了流程。

从面试角度，Checkpointer 的配置方式是一个高频追问方向：

from langgraph.checkpoint.memory import MemorySaver# 配置内存型 Checkpointer（开发环境）
checkpointer = MemorySaver()# 配置持久化 Checkpointer（生产环境）
# checkpointer = PostgresSaver(db_connection)graph = builder.compile(checkpointer=checkpointer)

面试官追问的方向通常是：「生产环境用内存型 Checkpointer 有什么风险？」「如果需要跨服务恢复状态，Checkpointer 怎么选型？

」「多个 Agent 实例共享同一个 checkpoint store 时，如何处理并发写入冲突？」

这三个追问分别考察的是：风险识别能力、分布式系统理解和并发场景处理。如果能在回答中自然引入「乐观锁」或「版本号」的概念，而不是简单说「加锁」，会显著提升工程印象分。

Checkpoint 持久化的时序逻辑

下面的时序图展示了从状态中断到完整恢复的完整过程，这个流程是回答「Checkpoint 是怎么工作的」这个问题的最佳视觉语言：

正文图解 2

状态丢一次，线上事故一次

Human-in-the-Loop：把人工审批装进 Agent Loop 的接口设计

什么是 Human-in-the-Loop，以及它为什么是 Harness 层的设计重点

Human-in-the-Loop（HiTL）直译是「人在循环中」，但这个翻译容易让人误解为「人在旁边看着」。

在 Agent 架构里，HiTL 的准确含义是：在 Agent 的执行链路中，允许人工在指定节点介入决策，审批结果直接影响 Agent 后续行为。

HiTL 在 2026 年的重要性来自两个现实驱动：

第一，模型能力边界不够稳定。一个高危操作（比如转账、删除数据、执行物理设备指令），在模型判断错误时会造成不可逆的后果。必须有人在关键节点介入。

第二，监管合规要求在变高。

MIT Technology Review 在 2026 年 4 月的一篇分析中指出，AI 在真实战争和商业决策中的应用正在引发法律争议，「humans in the loop」作为问责机制正在从设计偏好变成监管要求5。

这意味着 HiTL 不只是工程问题，也是合规问题。

从 Harness 层设计的角度，HiTL 需要三个接口能力：

中断点注入：Harness 能在指定节点自动中断 Agent 执行，等待人工输入。
审批状态传递：人工的审批结果（批准 / 拒绝 / 参数修改）需要被 Harness 层捕获并传递给后续执行逻辑。
拒绝后回退：当人工拒绝时，Harness 需要支持将状态回退到安全节点，而不是让 Agent 继续执行被拒绝的操作。

三路由审批的实现：从腾讯云实战案例拆解

腾讯云的 Luca Ju 在 2026 年 4 月 30 日发布了一篇详细的实战教程，演示了如何用 LangChain + LangGraph 实现高危工具的人工审批流程6。

这个案例的核心设计值得拆解。

三路由审批的含义是：工具执行前，Agent 需要将请求发送到审批队列，人工可以在三个路由中选择：

批准（Approve）：工具按原参数执行。
拒绝（Reject）：工具不执行，状态回退到调用前。
参数编辑（Edit）：人工修改参数后重新提交，Agent 按修改后的参数执行。

这个设计在 Harness 层是怎么实现的？核心在 interrupt_before 或 interrupt_after 这两个 LangGraph 内置的断点机制：

# 在高危工具节点前注入断点
def high_risk_tool_node(state):# 检查 tool_call 是否为高危操作tool_name = state.get("pending_tool")if tool_name in HIGH_RISK_TOOLS:# 触发 Harness 层的中断，暂停执行return interrupt({"type": "human_approval","tool": tool_name,"params": state.get("tool_params"),"timeout": 300  # 5分钟超时})# 低风险工具直接执行return execute_tool(tool_name, state.get("tool_params"))

面试官在这个环节最常追问的问题是：「断点等待期间，Agent 的状态保存在哪里？」「审批超时后，系统怎么处置？」「如果用户在审批界面点了编辑但没提交，这个中间状态算不算已决？」

这三个追问依次考察的是：Checkpoint 与 HiTL 的配合、超时机制设计、以及状态机的边界行为。

能把 Checkpoint 和 HiTL 的配合关系讲清楚的人，在工程理解维度上显著高于只会调模型的候选人。

安全规则配置：Claude Managed Agents 的实现思路

Anthropic 在 Claude Managed Agents 的文档里，提供了另一种 HiTL 实现思路：通过 security_rules 参数在工具调用前配置审批规则，当工具激活时自动触发审批流程3。

这个思路和腾讯云的方案在本质上一致——都是通过 Harness 层的规则引擎在运行时拦截高危操作。

但 Claude Managed Agents 的特点是把规则配置化了，让非工程师也能通过配置管理审批策略，而不需要写代码。

从面试准备的角度，你需要能回答这两种实现思路的取舍：配置化的优点是运维门槛低，缺点是灵活性受限；代码化的优点是完全可控，缺点是需要工程团队维护。

没有标准答案，但能讲出取舍的人，说明他有真实的系统设计经验。

审批超时怎么处理，这题必问

Tool Calling 编排：Harness 层如何暴露统一的工具调用接口

工具数量爆炸的问题：90.4% 的正确率消失在哪里

在聊 Tool Calling 编排之前，需要先理解这个问题为什么存在。

当 Agent 只有三到五个工具时，工具选择不是一个难题——模型在 Prompt 的约束下能比较准确地判断应该调用哪个工具。

但当工具数量扩展到二十个以上，事情开始变得复杂：一方面，工具描述在上下文中的 token 消耗急剧增加；另一方面，模型需要在更多候选中进行选择，正确率开始下降。

根据 juejin 上的一篇专题分析，在无结构化编排的情况下，当工具数量超过 20 个时，Agent 的工具调用正确率下降约 90.4%4。

这个数字的具体含义是：每 10 次工具调用，有 9 次会因为选错工具、参数格式错误或依赖顺序错误而失败。

这不是模型的智商问题，是接口抽象的问题——当工具数量爆炸时，需要 Harness 层提供结构化的编排能力，而不是让模型在一条 Prompt 里自己判断。

工具调用的四步接口链

Harness 层对 Tool Calling 的接口抽象，可以拆解为四个步骤，每个步骤对应一组标准接口：

注册（Register）：工具需要先注册到 Harness 的工具注册表。每个工具的注册信息包括：名称、描述、参数 schema、返回值格式、执行权限（是否需要 HiTL 审批）、超时配置。

注册阶段的常见工程问题：参数 schema 的设计质量直接决定了调用成功率。如果 schema 过于模糊（参数类型写的「任意」），模型在生成调用参数时会更容易出错。

选择（Select / Bind）：基于当前任务上下文，Harness 负责决定使用哪个工具。

在 LangChain 的实现里，这对应 bind_tools() 这个接口——它将工具列表绑定到模型的调用上下文，并提供结构化的工具描述，而非让模型自己去 prompt 里找线索。

调用（Invoke）：工具被选中后，Harness 执行实际的调用。这包括参数格式化、调用执行、结果捕获和错误处理。

调用过程中，Harness 需要处理三类异常：超时、网络错误、工具返回格式异常。针对每类异常，Harness 需要有对应的重试策略。

回传（Return）：工具执行结果返回给模型。这不仅是结果数据本身，还包括执行元数据（耗时、调用次数、错误记录），这些元数据会被 Harness 用于后续的监控和优化。

工具编排的依赖图：ToolChain 的构建

当多个工具存在依赖关系时（比如「先查数据库获取 ID，再根据 ID 调用 API」），Harness 需要支持工具链的编排。

LangChain 提供了 ToolChain 的概念，本质上是一个有向无环图（DAG），描述工具之间的执行顺序和依赖关系。

from langchain.tools import Tool
from langgraph.prebuilt import ToolNode# 定义工具节点
search_tool = Tool(name="search", func=search_func, description="搜索产品信息")
analyze_tool = Tool(name="analyze", func=analyze_func, description="分析搜索结果")
report_tool = Tool(name="report", func=report_func, description="生成报告")# 构建工具链 DAG
tool_nodes = {"search": ToolNode(search_tool),"analyze": ToolNode(analyze_tool),"report": ToolNode(report_tool)
}# search → analyze → report 的依赖关系由 Harness 层自动解析

在这个例子里，Harness 层的职责是：解析 DAG 依赖、确保前置工具执行完毕后再调度后续工具、处理工具执行失败时的上游通知。

面试中能讲出 DAG 依赖解析这个细节的人，说明他对工具编排的实现有实际接触，而不只是调过 chain.invoke()。

工具调用延迟：被忽视的性能指标

Tool Calling 还有一个面试里容易被忽视的维度：延迟。

当 Agent 需要调用多个工具串行执行时，总延迟等于所有工具延迟之和。

在真实业务场景里，一个客服 Agent 可能需要依次调用：意图识别模型 → 知识库检索 → 订单查询 → 物流 API。

每个工具的延迟叠加起来，用户感知到的响应时间可能超过 10 秒。

Harness 层的优化策略通常有两种：

并行化：对于没有依赖关系的工具，Harness 可以并发调用，而不是串行等待。LangGraph 通过 Pregel 并发模型支持同一个节点的多个工具并行执行，显著降低总延迟。

预热：对于高频调用的工具，Harness 可以提前初始化连接或预加载数据，减少单次调用延迟。

OpenAI Agents SDK 在 2026 年 4 月的更新里，sandbox 能力的核心价值之一就是提供受控的计算环境，让工具调用的资源初始化更加可预测2。

这个环节的面试价值不在于你能背出延迟数字，而在于你能讲清楚「在工具编排时考虑了哪些性能因素」——并行化、预热、超时控制、重试策略，这些是工程思维的体现。

工具一多就崩，不是模型笨，是接口没设计好

AgentRuntime 生命周期：Harness 层管理的四个阶段与接口

四个阶段：初始化 → 调度 → 监控 → 终止与恢复

Juejin 上的一篇专题在 2026 年 4 月将 Harness 层的职责精炼成四个边界词：调度、监控、错误隔离、上下文注入1。

这锅先别急着往我头上扣

这四个词不是随机排列，它们对应 AgentRuntime 的四个生命周期阶段，每个阶段都需要 Harness 层提供对应的接口抽象。

初始化阶段（Initialize）：这个阶段是 Harness 的「启动准备期」。

它负责加载配置（工具列表、超时策略、HiTL 规则）、初始化上下文容器、建立与模型后端的连接。

如果使用的是 Claude Managed Agents，这个阶段还会由平台自动完成容器分配和安全规则初始化2。

初始化阶段最容易被候选人忽略的细节是配置校验——当工具列表里有重复名称、参数 schema 格式错误或 HiTL 超时配置为 0 时，Harness 应该在初始化阶段抛出明确错误，而不是带着隐患进入执行期。

很多候选人会写「我用了 LangGraph」，但被问到「初始化阶段如果工具 schema 不合法，系统怎么处理」，答不上来。

调度阶段（Dispatch）：这是 Harness 最核心的职责发生的地方。当用户输入到达时，Harness 负责将输入注入当前上下文，决定调用哪个工具，管理模型与工具之间的数据流转。

调度阶段的核心接口是 dispatch(input, context) 这样的抽象——它接收用户输入和当前状态，返回下一个执行动作。

这个接口的设计质量直接决定 Agent 的可控性。如果 Harness 把所有上下文一股脑塞进 Prompt，模型会面临 token 爆炸问题；

如果上下文注入不足，模型会丢失关键依赖信息。

监控阶段（Monitor）：Agent 执行过程中，Harness 需要持续追踪执行状态，包括工具调用的耗时、返回结果的质量、异常发生频率、Checkpoint 写入进度。

监控不只是「观察」，还包括基于监控数据的实时决策——比如连续三次工具调用失败时，是否应该触发降级策略或人工介入。

这个阶段的接口设计通常包括：get_state() 查询当前 Agent 状态、subscribe_event(event_type, callback) 注册监控回调、trigger_rollback(reason) 基于监控数据触发状态回退。

终止与恢复阶段（Terminate / Resume）：当任务完成、超时触发或用户主动取消时，Harness 需要正确关闭执行上下文，释放资源，并将最终状态写入 Checkpoint 以支持后续恢复。

恢复能力是这一阶段的核心价值。一个没有正确实现恢复接口的 Agent，在生产环境中遇到服务重启、网络中断或容器迁移时，会丢失所有执行进度，用户必须从头开始。

这在客服场景或长任务场景里是致命的体验问题。

正文图解 3

接口抽象的四层架构：Harness 对外暴露的边界

理解了四个阶段之后，需要进一步拆解 Harness 对外暴露的接口边界。

根据 JavaGuide 的 harness-engineering 文档和 OpenAI Agents SDK 的设计思路3，Harness 对外的接口可以抽象为四层：

控制层接口：负责启动、停止、暂停、恢复 Agent 执行。包括 start()、pause()、resume()、terminate()、get_status()。

控制层接口是面试中最容易被问到「你在项目里怎么实现优雅停止」的落点——不是 kill -9，而是通过 pause() 让 Agent 在安全点停下，写入 Checkpoint，再真正释放资源。

上下文层接口：负责管理 Agent 的运行时上下文，包括状态读写、历史注入、变量管理。

核心接口包括 read_state()、write_state()、inject_context()、clear_context()。

上下文层是 token 管理的入口，面试中能讲清楚「如何设计分层上下文注入策略（系统级 / 任务级 / 会话级）」的候选人，通常已经在实际项目里踩过 token 爆炸的坑。

工具层接口：负责工具注册、选择、调用代理、结果回传。这部分在上一章 Tool Calling 编排里已经详细拆解，这里补充接口层面的抽象：

class HarnessToolInterface:def register(self, tool: Tool) -> None: ...def select(self, context: Context) -> Tool: ...def invoke(self, tool: Tool, params: dict) -> InvokeResult: ...def rollback(self, tool: Tool, checkpoint_id: str) -> None: ...

监控层接口：负责暴露 Agent 的运行时指标，供外部系统消费。

核心接口包括 get_metrics()、subscribe(event, callback)、export_state()。

监控层接口的设计决定了 Agent 的可观测性——一个没有监控层接口的 Agent，在生产环境里就是黑盒，出问题时排查难度极高。

这四层接口的划分方式，面试官可以用它来判断候选人对 Harness 层的理解是否系统。

如果你只用过 chain.invoke() 而没思考过「这个调用背后 Harness 帮我做了哪些事」，这一节就是你的补弱点。

四层接口，我只用过 invoke 和 get_output

错误隔离与上下文注入：Harness 层两个被低估的面试深水区

错误隔离：为什么 80% 的生产 Agent 事故不是模型的问题

Juejin 上那篇 2026 年 4 月的分析里有一组值得记下来的数字：约 80% 的生产级 Agent 事故并非模型判断错误，而是 Harness 层的上下文注入时机错误或错误隔离失效导致的级联故障4。

这个数字的准确含义是：当 Agent 在生产环境中崩溃时，问题通常不在模型层的推理质量，而在于 Harness 层没有正确处理三类场景：异常域隔离失败（一个工具的错误扩散到整个 Agent）、上下文过期（模型使用了过期或不匹配的历史状态）、资源耗尽（内存、Token、超时没有在 Harness 层控制住）。

这恰恰是面试中最容易被低估的地方——很多候选人花了大量时间研究「模型能力」，但对 Harness 层的错误隔离机制几乎没有概念。

异常域隔离的实现思路：OpenAI Agents SDK 在 2026 年 4 月的更新里引入了 sandbox 能力，本质上就是一种错误隔离机制5。

sandbox 的核心价值是把 Agent 的执行环境隔离在一个受控空间内，单个工具的错误不会泄漏到宿主系统，也不会污染 Agent 的主上下文。

从工程实现角度，错误隔离通常有三种策略：

进程级隔离：每个工具调用在独立进程或容器中执行，通过进程间通信传递结果。这种方式隔离性最强，但开销最大，适用于高危操作（如文件删除、系统命令）。

内存级隔离：工具在同一个进程内执行，但通过 try-catch 捕获异常并限制异常传播范围。这种方式开销小，但隔离性有限，适用于低风险工具。

超时隔离：不给工具无限执行时间，通过超时机制强制终止长时间无响应的工具。这种方式是前两者的补充，但不能单独作为隔离策略。

面试官在这里最常追问的是：「如果工具 A 抛出了异常，工具 B 会不会受影响？」「你的 Agent 怎么保证一个工具的错误不会导致整个对话崩溃？

」能回答出「通过错误隔离策略，工具 B 的执行上下文不受工具 A 的异常影响」的人，工程理解维度上明显高于只会写 try-except 的人。

分层上下文注入：系统级、任务级、会话级

上下文注入是 Harness 层最核心的能力之一，但大多数面试者只理解「把对话历史塞进 Prompt」这一层。

真实的分层上下文注入策略远比这复杂。根据实际项目经验和主流框架的设计，Harness 层的上下文注入通常分为三个层级：

系统级上下文（System Context）：这是最底层的上下文，在 Agent 初始化时注入，通常包括：Agent 的角色定义、安全规则、系统级指令（比如「不要调用超过三次」「高危操作需要人工审批」）。

系统级上下文通常是不变的，不会随着用户输入变化。

任务级上下文（Task Context）：这是针对当前任务的上下文，每次新任务启动时重置。它包括：任务目标、已完成步骤的摘要、当前任务的中间状态。

任务级上下文是 Checkpoint 持久化的主要对象——当任务中断需要恢复时，Harness 从 Checkpoint 中恢复任务级上下文。

会话级上下文（Session Context）：这是跨对话轮次的上下文，记录用户偏好、历史交互模式、会话级状态。

会话级上下文在多轮对话场景里非常重要——比如用户在前几轮说过「我偏好英文回复」，这个信息需要被 Harness 注入到后续所有轮次的上下文里。

分层注入策略的工程价值在于避免 token 污染。如果把系统级、任务级、会话级的所有信息全部塞进 Prompt，模型面对的是一个噪声极高的输入。

分层注入允许 Harness 根据当前任务阶段动态选择注入哪些上下文，减少 token 消耗的同时提高模型输出的准确性。

面试里能讲清楚「我的 Agent 怎么决定在什么时机注入什么层级的上下文」的人，说明他已经从「调模型」进化到「设计 Agent 运行系统」的阶段。这个区别，在面试官眼里是质的差异。

错误隔离与上下文注入的组合风险

把错误隔离和上下文注入放在一起看，会发现一个容易被忽视的组合风险：当工具调用失败时，错误信息会被写回上下文。如果 Harness 没有正确处理错误信息的注入格式，错误信息可能会污染模型的后续推理。

一个常见的场景是：工具 A 执行失败，抛出了一个包含敏感信息的异常（比如数据库连接失败的具体 IP 和端口），这个异常被直接写入上下文，模型在下一次推理时可能把这段错误信息当成有效输入的一部分来处理。

正确的做法是：Harness 层在捕获工具异常后，应该先做脱敏处理——把敏感字段替换为通用错误描述，再写入上下文。

Claude Managed Agents 的安全规则配置在这方面提供了系统性的保护策略2。

这个问题在面试中不常被直接问到，但它的延伸问题很常见：「你遇到过 Agent 输出异常的情况吗？你怎么排查的？

」能把这个问题回答到「先查 Harness 层的上下文注入日志，定位异常信息是否污染了模型上下文」这个深度的人，通常有过真实的排障经验。

工具一崩模型就发疯，原来是上下文被污染了

项目落地：如何在面试中把 Harness 设计讲成真实项目

有 Harness 设计痕迹的 AI 项目才能通过追问深度检验

牛客社区在 2026 年 4 月的 AI 项目讨论里，有一条高赞回复值得引过来：「别做那些 AI 套壳项目。什么叫套壳？

就是调个 OpenAI 接口，套个对话框，起个名字叫 XX 智能助手。这种项目满大街都是，面试官一眼就看穿。」

这句话对应到 Harness 层，意思是：如果你的 AI 项目里没有任何 Harness 层的工程痕迹（比如状态管理、工具编排、错误处理、持久化），它本质上就是一个「模型调用包装器」，经不起追问。

Harness 层的设计痕迹之所以重要，是因为它说明你理解 Agent 不等于模型。你考虑了运行时管理、异常处理、可观测性这些生产环境必须面对的问题，而不是只关注「模型能返回什么」。

项目表达框架：问题定义 → 技术选型 → 实现细节 → 效果量化

把 Harness 设计写进项目经历，需要一个清晰的表达框架。下面按四个维度展开，每个维度都给出具体的问题清单和回答方向。

问题定义：你要解决的真实问题是什么？

好的项目起点不是「我想做一个 AI Agent」，而是「我们遇到了一个什么问题，用传统方法解决不了，所以才引入 Agent」。

比如：「客服 Agent 需要处理每天 1000 次的工单分类，人工分类需要 3 分钟每次，总耗时超过 50 小时/天，而且高峰期人力不足导致响应延迟超过 30 分钟。

」这个描述里，问题、时间压力、业务影响都是具体的，面试官能快速定位你的项目价值。

技术选型：为什么选择这个框架，而不是其他？

这一维度的回答要展示你对可选方案的评估过程。比如：「调研了 LangChain、LangGraph 和自定义 FSM 三种方案。LangChain 上手快但状态管理能力弱；

自定义 FSM 可控性强但维护成本高；LangGraph 的 StateGraph + Checkpoint 机制正好满足我们需要的断点恢复需求，所以最终选了 LangGraph。

」

能讲清楚技术选型的理由，说明你做过横向对比，而不是随大流。

实现细节：Harness 层具体做了什么？

这是最关键的维度，需要展示你对 Harness 层四个职责的落地能力：

调度：怎么实现上下文注入的？分层策略是什么？
监控：怎么追踪 Agent 执行状态的？用了哪些可观测性工具？
错误隔离：工具调用失败怎么处理？有没有 sandbox 隔离？
工具编排：工具数量多少？有没有依赖图（DAG）？

实现细节的描述要具体到代码层面，但不要写成代码堆砌——选择最有代表性的两到三个设计点深入讲，比泛泛罗列所有功能更强。

效果量化：项目的实际效果是什么？

量化指标是把项目从「技术练习」升级为「有业务价值的工程成果」的关键。常见的量化维度包括：

响应时间：「工单分类延迟从 180 秒降低到 15 秒」
准确率：「分类准确率从 72% 提升到 91%」
人力节省：「人工处理工单的时间减少了 80%」
可用性：「系统上线后无故障运行超过 30 天」

字节跳动在 2026 年 3 月发布的 ByteIntern 转正实习计划里，hc 的一个明显信号是：实习项目更看重「端到端效果」而非「模型调参效果」。

这意味着面试官会更关注你在 Harness 层的工程投入，而不是你用了哪个模型版本。

面试中的两个典型追问陷阱

在 Harness 层相关的项目描述里，有两个追问陷阱最常见，提前准备好能让你在面试中更从容。

陷阱一：「你的 Checkpoint 持久化具体怎么实现的？」

这个问题考察的是你对状态管理的理解深度。

好的回答应该包括：Checkpoint 的存储介质（内存 / Redis / 数据库）、Checkpoint 的触发时机（每个节点执行后 / 定时 / 手动）、恢复时的状态校验机制。

陷阱在于：如果你只回答「用了 LangGraph 的 checkpoint 功能」，这等于没有回答工程细节。

面试官想知道的是：你有没有理解 Checkpoint 的本质是「状态快照」，以及这个快照在恢复时怎么保证一致性。

陷阱二：「如果工具调用失败了，你的 Agent 怎么处理？」

这个问题考察的是错误隔离的工程落地。

好的回答应该包括：错误分类（超时 / 网络错误 / 工具返回异常）、重试策略（指数退避 / 最大重试次数）、降级方案（返回默认值 / 触发人工介入）、错误日志写入上下文前的脱敏处理。

陷阱在于：很多人会把这个问题答成「catch 一下，打个日志」。但生产级的错误处理远比这复杂——你需要考虑错误扩散的隔离、重试的退避策略、以及错误信息对模型上下文的影响。

能回答到这些深度的人，通常有过真实的线上排障经验，而不是只在 Demo 环境里跑过 Agent。

面试官追问 Checkpoint 实现，我当场石化

没有真实项目怎么办：补充 Harness 设计的技术表达

如果你的 AI 项目经验比较浅，还没有完整的 Agent 工程落地，也可以通过技术表达来展示 Harness 层的理解。

一个有效的方式是架构复盘法：选一个你用过的开源 Agent（比如 AutoGPT、GPT-Researcher 或公司内部 demo），分析它的 Harness 层设计，指出它在哪里做了调度、监控、错误隔离和上下文注入，然后评价它的实现方案有什么优点和缺点。

这个方法的好处是不需要真实项目作为支撑，但需要你有足够的系统设计知识来分析一个现有系统。

AI Engineering Field Guide 的 System Design 章节提供了这类分析的框架参考6。

另一个方式是在课程项目或毕业设计里引入 Harness 层的设计思维。

比如：「在我的聊天机器人课程项目里，我设计了一个简单的状态管理模块，虽然没有用 LangGraph，但实现了基本的上下文注入和工具调用代理。

」这种表达虽然没有生产级那么复杂，但能展示你有 Harness 层的意识。

关键是：不要假装有你没有的项目经验，但可以通过技术分析和设计思考来展示你的认知深度。面试官更在意的是你的思考方式，而不是你的项目列表有多长。

参考文献与延伸学习路径

以下是一手来源的标准化引用清单，按相关度排列，供深入研究和面试准备参考。

描述：LangChain 官方对 Harness 能力层的定义和接口说明，包括调度、监控、错误隔离和上下文注入的核心概念。是理解 Harness 层最权威的文档来源。

来源：docs.langchain.com

描述：JavaGuide 项目中关于 Agent Harness Engineering 的文档，从工程视角梳理了 Harness 层的职责边界和设计要点。

适合作为面试准备的系统性参考资料。

来源：7(https://github.com/Snailclimb/JavaGuide/blob/main/docs/ai/agent/harness-engineering.md)

描述：独立维护的 Harness Engineering 技能库，提供了 Harness 层设计的系统性方法论和实操指南。是构建生产级 Agent 不可或缺的工程参考。

来源：8(https://github.com/jonzarecki/harness-engineering-skill)

描述：AI 工程领域的 Field Guide，包含 System Design、面试准备等高价值章节。

Stars 量说明其在工程师社群中的认可度，是准备 AI Agent 面试的系统性材料。

来源：6(https://github.com/alexeygrigorev/ai-engineering-field-guide)

描述：OpenAI 在 2026 年 4 月更新 Agents SDK，新增 sandbox 隔离能力和 in-distribution harness 接口，是企业级 Agent 生产化的重要信号。

来源：9(https://techcrunch.com/2026/04/15/openai-updates-its-agents-sdk-to-help-enterprises-build-safer-more-capable-agents/)

描述：Anthropic 发布的 Claude Managed Agents 云服务，自动化了大量 Harness 层的工程工作，包括容器管理、安全规则配置和状态管理。

展示了云厂商对 Harness 层标准化封装的趋势。

来源：10(https://siliconangle.com/2026/04/08/anthropic-launches-claude-managed-agents-speed-ai-agent-development/)

描述：用 LangChain + LangGraph 实现高危工具人工审批的详细教程，包含三路由审批（Approve / Reject / Edit）和 Checkpoint 断点恢复的完整代码实现。

是 HiTL 落地的最具体案例。来源：11(https://cloud.tencent.com/developer/article/2662943)

描述：分析了「humans in the loop」在 AI 战争和商业决策中的法律争议，指出 HiTL 正从设计偏好演变为监管要求。是理解 HiTL 合规价值的背景材料。

来源：12(https://www.technologyreview.com/2026/04/17/1136112/the-download-inner-neanderthal-ai-war-human-in-the-loop/)

描述：将 Harness 层职责精炼为「调度、监控、错误隔离、上下文注入」四个边界词，是理解 Harness 层职责体系的高密度专题文章。

来源：1(https://juejin.cn/post/7633783248477454372)

描述：AI Agent 测试策略专题，提供了工具数量与调用正确率关系的实测数据（20+ 工具时下降约 90.4%），以及 Harness 层在测试阶段的职责分析。

来源：4(https://juejin.cn/post/7634047093712781353)

参考文献

Harness层】Harness层职责边界：调度、监控、错误隔离、上下文注入
Anthropic launches Claude Managed Agents to speed up AI agent development
GitHub · Snailclimb/JavaGuide
专题6】改一行代码毁掉整个Agent Loop？测试策略才是真正的护城河
OpenAI updates its Agents SDK to help enterprises build safer, more capable agents
GitHub · alexeygrigorev/ai-engineering-field-guide
GitHub · Snailclimb/JavaGuide
GitHub · jonzarecki/harness-engineering-skill
techcrunch.com
siliconangle.com
DeepAgents 人工介入实战｜LangGraph 实现 Agent 高危工具人工审批-腾讯云开发者社区-腾讯云
technologyreview.com