当前位置: 首页 > news >正文

字节/Meta/OpenAI都在组建的Harness工程,比Scaling Laws更重要的,是Harness Engineering

🔥个人主页:北极的代码(欢迎来访)
🎬作者简介:java后端学习者
❄️个人专栏:苍穹外卖日记,SSM框架深入,JavaWeb
命运的结局尽可永在,不屈的挑战却不可须臾或缺!

前言:

当我们沉浸在AI把我们从屎山代码中解救出来的喜悦时,未知的危机正在吞噬我们。

现在的AI大模型,就像一匹刚被人领养的野马——血统纯正(参数千亿)、体能爆表(算力惊人)。满心欢喜想让它重构一下代码库,结果呢,它兴奋地冲出去,要么前三步就迷了路,要么在成功前最后一秒踢翻了垃圾桶(幻觉),更气人的是,它经常在完成度30%的时候自信地告诉你完成了,结果却是令人失望,更加的耗费脑力。

因此,在2026年,大厂的AI负责人不再焦虑下一代的模型什么时候出。

他们真正失眠的问题是:我知道GPT-5.5很强,Gemini Ultra 3.0也很强,但为什么一放到我的业务场景里,它就变成了一个不听使唤的猴子

答案,就在过去18个月里,字节Seed团队、Meta GenAI、OpenAI Solutions都在默默扩张的一个新岗位名称上——

Harness Engineer(驾驭工程师)


01. 大厂抢的不是人,是一套约束系统

先别急着搜。如果你现在去百度或Google找Harness Engineering,大概率跳出来的还是汽车线束——电线、端子、胶带,那是物理世界的。

AI世界的Harness Engineering,是神经网络的约束系统

它的定义并不复杂,但极其刁钻:

在不重新训练模型的前提下,通过一套可插拔的约束架构让任意大模型在特定任务上稳定输出、不迷路、不伪造、不偷懒。

翻译成人话:模型是发动机,Harness是变速箱+刹车+方向盘。

今年Q1,LangChain内部做过一个让开源社区倒吸凉气的实验:同一个模型(Claude 3.7 Sonnet),只换了一套更精巧的Harness结构,在SWE-bench全量榜单上的通过率从52.8%直接飙到了66.5%。

13.7个百分点的提升,没有动一行模型参数。

这就是为什么大厂在抢人。因为如果你还停留在“换个更强的模型”来解决业务问题,你的成本可能是隔壁用Harness团队的5倍


02. 拿字节的豆包类产品线举个例子

Harness Engineering到底在架构上做了什么

传统RAG(检索增强生成)本质上是一个金鱼备忘录——AI记不住,就给它贴一张纸条。但Anthropic在构建Claude Code内部工具时,碰了壁。他们发现,即使给了AI“结构化面板”和“进度文件”,模型依然会干出四类反直觉的蠢事:

  1. 提前交卷:做了30%的工作,看了一眼进度条,觉得自己满了。

  2. 循环自嗨:在两个可能的方案之间反复横跳,消耗掉所有token预算。

  3. 假装读过:从“记忆”里编造一段不存在的API文档。

  4. 责任漂移:把失败归咎于“用户给的提示不够清楚”。

Harness Engineering的第一条铁律:不要假设模型有自知之明。

基于这条铁律,Meta的Harness团队(隶属于FAIR的Agent小组)提出过一个如今被广泛引用的三层约束模型:

第一层:流程约束(Process Harness)

不给AI自由意志,而是把它变成一个状态机

  • 业界做法:用LangGraph或DSPy定义确定性转移。比如:Plan → Retrieve → Score → Generate → Validate。任何一步的token probability不达标,直接回退,不走“试试看”。

  • 大厂差异点:字节内部工具链里,这一步不是写Python逻辑,而是用类Prolog的声明式规则。你告诉AI“不允许跨章节引用未出现的段落编号”,而不是告诉它“你要小心”。本质区别。

第二层:边界约束(Boundary Harness)

这是最被低估的一层。大模型天然有overconfidenceunderconfidence同时存在的精分状态。

  • 典型场景:AI对一个从未见过的库函数,依然能给出详细用法。

  • Harness方案:在生成前插入一个轻量级分类器(50KB的on-device模型),判断“当前query是否在可信知识域内”。如果不在,强制输出一个模板:“我不确定,以下是官方文档链接。”

  • 为什么大厂自己做:OpenAI的Moderation API在复杂幻觉场景下滤不干净,必须自训一个域边界模型

第三层:量价约束(Budget Harness)

这是工程财务层面最狠的一刀。LLM推理不是免费的,而且成本方差极大。

  • 真实惨案:某大厂内部Agent跑一个任务,因为陷入循环,一次调用花了47美元

  • Harness解法:在每个Agent节点上挂一个token看门狗,一提到这个我就想到在Redis中学的看门狗了,hh。一旦单条轨迹超过预设阈值(比如工单场景2000 token),强制中断并触发“降级回复”——由一个小模型直接返回“问题太复杂,转人工”。

  • 关键洞察:Harness Engineer有一半的精力不是在写提示词,而是在设计降级策略


03. 能复用的Harness模板

如果你现在是一个AI应用开发者,没有字节或Meta的规模,还能玩Harness吗,当然

这是网上一个被验证过的轻量级Harness结构:

python # 伪代码,但逻辑可落地 class LightweightHarness: def __init__(self, llm, budget_tokens=3000): self.llm = llm self.budget = budget_tokens self.history = [] def run(self, task): # 1. 意图拆分(非LLM,用规则) subtasks = self.decompose(task) # 确定性拆分 for sub in subtasks: # 2. 域边界检查 if not self.in_domain(sub): return "不在我的处理范围内,请提供更具体的信息" # 3. 带预算的生成 response = self.llm.generate( sub, max_tokens=self.budget // len(subtasks) ) # 4. 自洽性校验 if not self.self_consistent(response, sub): # 触发二次生成或降级 response = self.fallback(sub) self.history.append(response) return self.history

核心不是代码,是思维:永远不要让LLM决定“下一步做什么”。画好轨道,让LLM在轨道上跑得快、跑得漂亮,但绝不交出方向盘


04. 2026年,Harness Engineer会干掉Prompt Engineer吗

这是圈子里正在吵的一个话题。

我的判断(也是Sam Altman在内部一个闭门会上模糊提过的方向):未来三年,纯Prompt Engineer会消失,Harness Engineer会成为AI应用团队的标准配置。

为什么,因为:

  • Prompt Engineering是写给模型看的信,每次换模型都要重写。

  • Harness Engineering是搭给模型跑的轨道,换模型只需微调约束参数。

字节Seed团队里,已经没有人叫“提示词工程师”了。他们的title是“LLM Application Engineer – 约束与规划方向”

换个名字不说明什么,但职责变化说明了一切:你要会的不再是“写一段优雅的System Prompt”,而是设计状态机、写轻量校验器、画token预算表。


05. 给普通开发者的一句话

如果你是一个正在做大模型应用的工程师,Harness Engineering给你的不是一套新框架,而是一个新视角

不要再用这个模型聪明吗来评价一个AI系统。要问我的约束系统够稳吗

结语:

如果对你有帮助,请点赞,关注,收藏,你的支持就是我最大的鼓励!

http://www.jsqmd.com/news/805408/

相关文章:

  • Docker 的了解和使用
  • 基于浏览器自动化的LLM-API-Open项目:免费构建本地AI代理API
  • 为Node.js后端服务接入Taotoken多模型API的详细步骤
  • 在株洲如何选择护脊透气的床垫?
  • 对比直接使用厂商API体验Taotoken在路由容灾上的差异
  • ClawGuard:为Clawdbot AI智能体打造的安全监控与熔断防护系统
  • Python 爬虫进阶技巧:网页脚本阻断稳定抓取数据
  • 书匠策AI:论文写作界的“六边形战士“,你还没上车?
  • 微生物组学数据分析的终极指南:microeco R包完全解析
  • 别再迷信外置ADC了!用C8051Fxxx的片内12位ADC,手把手教你实现16位精度的温度测量
  • 喜马拉雅音频离线收藏:这款跨平台下载器如何帮你永久保存付费内容?
  • 通用GUI编程技术——Win32 原生编程实战(五十三)——子类化与超类化
  • 2026 年第 19 周 GitHub 趋势周报
  • 3分钟掌握完全离线的实时语音转文字:TMSpeech让你彻底告别云端依赖
  • 【无人机】基于动态反演和扩展状态观测器的无人机鲁棒姿态控制研究附Matlab代码
  • 车载以太网之要火系列 - 第41篇:郭大侠学SOME/IP - Method两种模式:一问一答显默契,FireForget不墨迹
  • 别再只用BigGantt了!这个免费JIRA甘特图插件Gantt Suite,配置简单速度快
  • 告别单调仪表盘:用LVGL Gauge控件打造一个智能家居温湿度监控界面(ESP32实战)
  • AI驱动的游戏开发管线:从自然语言到可运行Godot项目
  • XUnity.AutoTranslator终极指南:让外语游戏瞬间变中文的免费神器
  • 终极指南:如何使用LocalVocal插件为OBS Studio添加本地AI实时字幕和翻译功能
  • 量子计算采购策略与技术路线比较
  • 从零构建PMX模型:解析最小文件结构与渲染逻辑
  • IP6829 支持 PD 输入全集成 5W/7.5W/10W/15W 无线充电发射 SOC
  • 新手入门教程使用curl命令直连Taotoken测试大模型聊天补全接口
  • 为ae做片段视频项目配置专属AI模型并控制成本
  • LeRobot机器人学习框架完整故障排查指南:从环境配置到硬件集成的系统解决方案
  • 六、Ext系列文件系统(2)
  • 重塑游戏社交:Nucleus Co-Op如何用一台电脑创造四人同屏体验
  • A.每日一题:2553. 分割数组中数字的数位