当前位置：首页 > news >正文

Harness Engineering到底是什么？概念、实战与争议，一次全部讲清楚

news 2026/8/3 23:04:49

本文整理自 B 站「马克的技术工作坊」的 Harness Engineering 视频，通过视频总结工具Ai好记进行视频转图文整理，以下为精炼整理后的内容。

📖 目录

引言与背景
前置概念：Prompt Engineering
前置概念：Context Engineering
Harness Engineering 核心概念解析
三代技术的演进关系
OpenAI 的 Harness Engineering 实践
Anthropic 的 Harness Engineering 实践
争议与思考

继 Prompt Engineering 之后，AI 圈最近又冒出了一个新名词，叫 Harness Engineering。

从 2026 年 2 月开始，这个词频繁地在 AI 圈里出现。

OpenAI 专门发了一篇文章，讲他们怎么用 Harness Engineering 在 5 个月内写了将近 100万行代码。
Anthropic 也紧接着发文，分享了自己如何使用精心设计的 harness 架构来驱动 agent 开发应用。

但与此同时，也有不少人认为这不过是个噱头而已，换汤不换药。

那 Harness Engineering 到底是什么？
它跟 Prompt Engineering 和 Context
Engineering 又有什么关系？
Harness Engineering 是真正的技术突破，还是只是 AI 圈的概念炒作？

前置概念：Prompt Engineering

在讲 Harness Engineering 之前，不妨先讲讲它的两个「前任」，分别是 Prompt Engineering 和 Context Engineering。对这两个概念比较熟悉的同学，可以直接跳到下一个章节。

首先是 Prompt Engineering。

这里的 Prompt，你可以简单理解成用户发给大模型的话。Prompt Engineering 就是一门专门研究怎么把话说清楚的技术。

比如我们可以向大模型提问：

「帮我起个名字。」

大模型就会给出答案，比如什么花花、小白之类的。不过这些答案可能都无法让你满意，因为你家的猫可能是橘色的，花花或小白都与橘色这个颜色相冲突。

大模型为什么会给你错误的答案呢？

这是因为我们没有在 Prompt 里面给大模型足够的信息。既然问题出在 Prompt 上面，那解决问题的关键自然也在 Prompt 上面。

说得再具体一点，那就是我们需要学会如何更精准地表达自己的需求。这就引出了 Prompt Engineering。

Prompt Engineering 就是专门用来研究怎么把话说清楚的。按照 Prompt Engineering 的理念，我们需要发送的 Prompt 就应该是这样子的：

「帮我起个名字，两个字，需要体现出它活泼爱玩的性格。」

这时候大模型就可以给出一些更让你满意的名字了。

没错，说白了，Prompt Engineering 就是一门调整大模型提示词的技术。对，就是这么简单。

不过如今 Prompt Engineering 已经很少被单独提起了。

一方面，它的门槛实在太低了；另一方面，模型本身的能力也变得更强了，很多时候不需要在 Prompt 上调来调去，就能给出不错的回答。

前置概念：Context Engineering

下面来看看 Context Engineering。

我们还是用小猫来举例。假设你拿到了小猫的名字之后，还继续跟大模型聊天。比如你问它：

「那它平时吃什么好呢？」

这就是我们的 Prompt 了。

那现在重点来了，我们此时要发给大模型的，其实不仅仅有这个 Prompt，还有之前的对话历史。这样大模型才知道这个新问题里面的「它」指代的是什么。

无论是 Prompt 还是对话历史，它们都是大模型所接收到的信息。我们把大模型所接收的所有信息起个名字，就叫 Context。

Context 是有容量上限的。所以我们不可能无止境地往里面塞东西，我们需要精心设计 Context 里面的内容。这就叫 Context Engineering。

Context Engineering 有很多具体的方法。

比如说其中一个非常经典的技术，就是上下文压缩。之前不是说我们会把对话历史放在 context 里面吗？我们跟模型越聊越多，对话历史也会越来越多。

当超过某个阈值的时候，我们就可以使用上下文压缩技术，把之前的对话历史做个总结，以防止 context 里面的内容过多，影响回答效果。

除了上下文压缩之外，Context Engineering 还有很多其他的方法，比如说动态检索外部资料、渐进式披露等等。

可以看出 Context Engineering 还是挺能整活的，搞出了这么多东西。不过吧，这依然不是重点。

因为大家发现啊，Context Engineering 这门技术的效果是有一定的上限的。

为了进一步榨干大模型的潜力呢，AI 圈却又整出了新花样，这个就引出了我们今天真正的主角——Harness Engineering。

Harness Engineering 核心概念解析

要搞明白 Harness Engineering 这个概念，我们就得先从「harness」这个单词说起。这个词在日常生活中其实不太常见，很多人可能也是第一次听说。

「harness」的本意其实是「马具」的意思。

大家看，这是一匹马。而 harness 或者说马具，就是套在马上，用来控制马的那些装备，比如说缰绳、头套等等。虽然马非常强大，但是我们必须借助马具的力量来限制马的活动，这样我们才能够让马为我们人类所用。

好，现在我们把马具从马身上单独拆下来做一个类比。

左边这匹脱掉马具的马，对应的就 AI 领域里面的大模型。你想大模型是不是特别强，尤其是像顶级模型这样，能干的事情可太多了。

但大模型就像马一样，如果我们不对它加以干预，任由大模型自己去运行和发挥，那它就会像脱缰的野马一样发散思维，甚至产生严重的幻觉，最终根本无法稳定地给我们想要的结果。

所以我们必须要把大模型给控制住，就像用缰绳来控制马一样。而这套用来控制大模型的系统就被称为了 Harness。

没错，Harness 就对应了这个缰绳。好，Harness 就是 Agent 里面用来控制和驾驭大模型的系统。所以呢从这一点出发，我们就能推导出 Harness 的公式。

也就是 Harness = Agent - Model。

换句话说，一个完整的 Agent 减去里面的大模型，剩下的所有东西都是 Harness。

不过需要注意的是，Harness Engineering 是一个非常新的概念，目前业界呢还没有形成严格的定义。

这个公式只是目前大多数人比较认可的一种说法，并非严格的学术定义，所以只要不是大模型，就是 Harness。

三代技术的演进关系

从这里可以看出，Prompt Engineering、Context Engineering 和 Harness Engineering 更像是一种层层递进、研究范围不断向外扩展的关系。它们关注的问题呢是越来越大，越来越广。

Prompt Engineering：研究如何问问题（优化单次输入）
Context Engineering：研究如何给信息（管理输入上下文）
Harness Engineering：研究如何搭系统（构建整个 Agent 系统）

OpenAI 的 Harness Engineering 实践

OpenAI 在实践中，围绕大模型搭建了完善的 Harness 系统，包括上下文管理、验证反馈和技术债清理三大方向。核心理念是「Human Steer, Agent Execute」（人类掌舵，Agent 执行），在 5 个月内由 AI 生成了近 100 万行代码的真实产品。

他们的实践表明，软件工程师的核心职责发生了转变：从亲自编写每一行代码、调试每一个错误，转变为为 Agent 设计和搭建稳定可靠的支撑系统与框架。

Anthropic 的 Harness Engineering 实践

Anthropic 提出了经典的 Harness 架构，包含 Planner（规划）、Generator（生成）和 Evaluator（评估）三个 Agent 协作。

Planner 负责将模糊的用户需求拆解为清晰具体的功能列表；
Generator 根据功能列表生成代码；
Evaluator作为独立的第三方，负责评估 Generator 产出的代码质量，提供客观反馈，形成「生成-评估-修改」的闭环。

有趣的是，随着模型能力（如 Opus 4.6）的持续增强，部分 Harness 设计的必要性可能会降低。

更强的模型可以自行决定任务执行顺序，不再需要强制的 Harness 约束。这说明模型能力的提升可以替代部分 Harness 的功能。

争议与思考

Harness Engineering 并非发明全新技术，而是将现有的工具链、测试、规划、评估等方法系统化地组织起来，形成一套可优化、可设计的工程框架。

「不是噱头」的依据：OpenAI 和 Anthropic 的实践已证明，Harness Engineering 能显著提升 Agent 的稳定性、自动化程度和生产力，是实实在在的工程成果。

「不是终局」的依据：随着未来模型能力持续增强，许多当前用于约束、纠正模型的 Harness 设计可能会被模型自身能力吸收，其形态会进化甚至部分变得不再必要。

个人观点总结：Harness Engineering 不是噱头，但也并非终局。它更像是一个在模型能力尚未完全成熟时期的过渡性关键技术，但在当前阶段对释放 AI 生产力至关重要。

以上内容由Ai好记转录整理。
Ai好记是一款音视频转图文笔记的 AI 学习助手，支持 B站、抖音、小宇宙等平台链接及本地音视频文件，转入后自动生成精华速览、思维导图和结构化笔记，帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

查看全文

http://www.jsqmd.com/news/902400/

LinkSwift网盘直链下载助手：免费解锁九大网盘下载限制的终极指南

DLSS Swapper完全指南：3步轻松管理游戏超采样文件，免费提升显卡性能

微信聊天记录永久保存指南：如何用WeChatMsg守护你的数字记忆

新手村第一关：POJ 1000题A+B Problem保姆级通关攻略（从注册到AC）

AMD处理器性能优化终极指南：3步掌握硬件调优完整解决方案

如何用WeChatMsg永久保存你的微信聊天记忆：免费工具完全指南

工业视觉新手的福音：用Halcon DLT V22.06搞定你的第一份深度学习标注数据集

呼伦贝尔黄金上门回收怎么选？福运来口碑领跑 - 上门黄金回收

实战避坑：在FPGA/SoC中实现PCIe数据链路层时，Ack/Nak机制的那些设计陷阱与优化技巧

3步搞定跨平台字体统一：PingFangSC免费字体解决方案

如何永久保存微信聊天记录：WeChatMsg完整指南与实用技巧

ROS日志检查卡在‘Done checking...’？别慌，三步搞定IP配置问题（附rosclean清理指南）

AI智能体安全漏洞深度剖析：从工具层盲区到纵深防御实战

TI雷达IWR1642+DCA1000硬件连线与模式设置避坑指南（附常见错误排查）

Beyond Compare 5 密钥生成技术解决方案：Python RSA加密逆向工程实践

2026年哈尔滨自考本科/自考专科报名推荐：小自考助学与大自考学历提升，最新教材与专升本指南 - 品牌企业推荐师（官方）

中科蓝讯-SPP判断按键是否按下

3分钟搞定：终极微信QQ防撤回神器使用全攻略

安全可观测性陷阱：从数据洪流到精准洞察的实战破局

无需专业开发！3步实现WebRTC视频通话实时变声功能终极指南

Arm DS-5与Fast Model远程调试配置指南

微信聊天记录永久保存终极指南：WeChatMsg本地免费工具完整解决方案

Studio Library：3分钟掌握Maya动画资产库管理技巧

终极指南：如何用TMSpeech实现3倍语音转文字效率提升

当数字记忆悄然流逝：用WeChatMsg为你的微信对话建立永久档案

3个理由告诉你为什么Mermaid Live Editor是图表创作的最佳选择

3分钟精准定位：Hotkey Detective帮你揪出Windows热键占用元凶

解放双手！3大核心功能带你体验鸣潮自动化工具的终极魅力

ArrayList vs LinkedList：底层原理、性能对决与扩容机制全解析

猫抓扩展：浏览器媒体资源嗅探的5大核心技术突破