当前位置：首页 > news >正文

字节/Meta/OpenAI都在组建的Harness工程，比Scaling Laws更重要的，是Harness Engineering

news 2026/7/5 6:43:07

🔥个人主页：北极的代码（欢迎来访）
🎬作者简介：java后端学习者
❄️个人专栏：苍穹外卖日记，SSM框架深入，JavaWeb
✨命运的结局尽可永在，不屈的挑战却不可须臾或缺！

前言：

当我们沉浸在AI把我们从屎山代码中解救出来的喜悦时，未知的危机正在吞噬我们。
现在的AI大模型，就像一匹刚被人领养的野马——血统纯正（参数千亿）、体能爆表（算力惊人）。满心欢喜想让它重构一下代码库，结果呢，它兴奋地冲出去，要么前三步就迷了路，要么在成功前最后一秒踢翻了垃圾桶（幻觉），更气人的是，它经常在完成度30%的时候自信地告诉你完成了，结果却是令人失望，更加的耗费脑力。

因此，在2026年，大厂的AI负责人不再焦虑下一代的模型什么时候出。
他们真正失眠的问题是：我知道GPT-5.5很强，Gemini Ultra 3.0也很强，但为什么一放到我的业务场景里，它就变成了一个不听使唤的猴子
答案，就在过去18个月里，字节Seed团队、Meta GenAI、OpenAI Solutions都在默默扩张的一个新岗位名称上——
Harness Engineer（驾驭工程师）。

01. 大厂抢的不是人，是一套约束系统

先别急着搜。如果你现在去百度或Google找Harness Engineering，大概率跳出来的还是汽车线束——电线、端子、胶带，那是物理世界的。

AI世界的Harness Engineering，是神经网络的约束系统。

它的定义并不复杂，但极其刁钻：

在不重新训练模型的前提下，通过一套可插拔的约束架构，让任意大模型在特定任务上稳定输出、不迷路、不伪造、不偷懒。

翻译成人话：模型是发动机，Harness是变速箱+刹车+方向盘。

今年Q1，LangChain内部做过一个让开源社区倒吸凉气的实验：同一个模型（Claude 3.7 Sonnet），只换了一套更精巧的Harness结构，在SWE-bench全量榜单上的通过率从52.8%直接飙到了66.5%。

13.7个百分点的提升，没有动一行模型参数。

这就是为什么大厂在抢人。因为如果你还停留在“换个更强的模型”来解决业务问题，你的成本可能是隔壁用Harness团队的5倍。

02. 拿字节的豆包类产品线举个例子

Harness Engineering到底在架构上做了什么

传统RAG（检索增强生成）本质上是一个金鱼备忘录——AI记不住，就给它贴一张纸条。但Anthropic在构建Claude Code内部工具时，碰了壁。他们发现，即使给了AI“结构化面板”和“进度文件”，模型依然会干出四类反直觉的蠢事：

提前交卷：做了30%的工作，看了一眼进度条，觉得自己满了。
循环自嗨：在两个可能的方案之间反复横跳，消耗掉所有token预算。
假装读过：从“记忆”里编造一段不存在的API文档。
责任漂移：把失败归咎于“用户给的提示不够清楚”。

Harness Engineering的第一条铁律：不要假设模型有自知之明。

基于这条铁律，Meta的Harness团队（隶属于FAIR的Agent小组）提出过一个如今被广泛引用的三层约束模型：

第一层：流程约束（Process Harness）

不给AI自由意志，而是把它变成一个状态机。

业界做法：用LangGraph或DSPy定义确定性转移。比如：Plan → Retrieve → Score → Generate → Validate。任何一步的token probability不达标，直接回退，不走“试试看”。
大厂差异点：字节内部工具链里，这一步不是写Python逻辑，而是用类Prolog的声明式规则。你告诉AI“不允许跨章节引用未出现的段落编号”，而不是告诉它“你要小心”。本质区别。

第二层：边界约束（Boundary Harness）

这是最被低估的一层。大模型天然有overconfidence和underconfidence同时存在的精分状态。

典型场景：AI对一个从未见过的库函数，依然能给出详细用法。
Harness方案：在生成前插入一个轻量级分类器（50KB的on-device模型），判断“当前query是否在可信知识域内”。如果不在，强制输出一个模板：“我不确定，以下是官方文档链接。”
为什么大厂自己做：OpenAI的Moderation API在复杂幻觉场景下滤不干净，必须自训一个域边界模型。

第三层：量价约束（Budget Harness）

这是工程财务层面最狠的一刀。LLM推理不是免费的，而且成本方差极大。

真实惨案：某大厂内部Agent跑一个任务，因为陷入循环，一次调用花了47美元。
Harness解法：在每个Agent节点上挂一个token看门狗，一提到这个我就想到在Redis中学的看门狗了，hh。一旦单条轨迹超过预设阈值（比如工单场景2000 token），强制中断并触发“降级回复”——由一个小模型直接返回“问题太复杂，转人工”。
关键洞察：Harness Engineer有一半的精力不是在写提示词，而是在设计降级策略。

03. 能复用的Harness模板

如果你现在是一个AI应用开发者，没有字节或Meta的规模，还能玩Harness吗，当然。

这是网上一个被验证过的轻量级Harness结构：

python # 伪代码，但逻辑可落地 class LightweightHarness: def __init__(self, llm, budget_tokens=3000): self.llm = llm self.budget = budget_tokens self.history = [] def run(self, task): # 1. 意图拆分（非LLM，用规则） subtasks = self.decompose(task) # 确定性拆分 for sub in subtasks: # 2. 域边界检查 if not self.in_domain(sub): return "不在我的处理范围内，请提供更具体的信息" # 3. 带预算的生成 response = self.llm.generate( sub, max_tokens=self.budget // len(subtasks) ) # 4. 自洽性校验 if not self.self_consistent(response, sub): # 触发二次生成或降级 response = self.fallback(sub) self.history.append(response) return self.history

核心不是代码，是思维：永远不要让LLM决定“下一步做什么”。画好轨道，让LLM在轨道上跑得快、跑得漂亮，但绝不交出方向盘。