当前位置：首页 > news >正文

模型不是壁垒，Harness 也不是

news 2026/6/6 7:44:03

文章目录

- 前言
- 一、先从那个" accidents "说起吧
- 二、Harness 到底是个啥？别被唬住了
- 三、OpenAI 和 Google 早就跟上了
- 四、源码泄漏后我发现了啥秘密
- 五、真正的壁垒到底在哪儿？
- 六、我实际用起来是啥感受
- 七、给开发者的一些大实话
- 八、这事儿还没完呢

P.S. 无意间发现了一个巨牛巨牛巨牛的人工智能教程，非常通俗易懂，对AI感兴趣的朋友强烈推荐去看看，传送门https://blog.csdn.net/HHX_01

前言

说实话啊，我第一次听说 Anthropic 要搞什么 Claude Managed Agents 的时候，差点把嘴里的咖啡喷屏幕上。啥？Harness？这词儿听起来像是马具厂转行做 AI 了？后来我花了整整三个通宵把相关文档扒了一遍，又亲手把 Claude Code 的源码（对，就是今年 3 月 31 号那场史诗级泄漏的 51.2 万行 TypeScript）逐行啃完，我才猛然醒悟——模型本身压根不是护城河，这套 Harness 也绝对构不成壁垒！

一、先从那个" accidents "说起吧

今年 3 月 31 号，Claude Code v2.1.88 发布。本来就是个常规版本迭代，结果呢？npm 包里多出来一个 59.8MB 的 source map 文件。几个小时之内，全网开发者跟过年似的，51.2 万行源码被镜像、逆向、逐行拆解。我当时就在想：Anthropic 这是要闹哪样？手滑了？还是故意的？

后来真相大白——真的就是 CI/CD pipeline 配置失误。但你知道最搞笑的是啥吗？是这 51 万行代码里暴露的 Harness 实现细节。那些所谓的"核心机密"，说白了就是把 prompt 切成两半拼装：前半段是不变的"身份证"（跨会话复用），后半段是每次现拼的"任务单"（根据场景实时生成）。就这？就这！

我跟你说，当我看到那段 assembleSystemPrompt() 函数的注释时，差点没笑出声。Anthropic 在 2025 年 9 月发的《Effective context engineering for AI agents》里吹得天花乱坠的"动态指令拼装"，原来就是字符串拼接加几个 if-else。兄弟们，这不是技术壁垒，这是代码能凑活用就行的务实精神啊！

二、Harness 到底是个啥？别被唬住了

搞技术的都知道，大模型本质上就是个基于上下文的概率生成引擎。Prompt Engineering（提示词工程）是第一阶段，Context Engineering（上下文工程）是第二阶段，现在 Anthropic 力推的 Harness Engineering（驾驭工程）就是第三阶段。关系很简单：Prompt ⊂ Context ⊂ Harness。

那 Harness 具体包含啥？根据我拆解的源码和官方文档，一个成熟的 Harness 得有这六个模块：上下文/知识、工具/权限、验证/约束、状态/记忆、可观测性/反馈、人类接管/生命周期。听起来高大上对吧？但你仔细琢磨琢磨——这不就是给裸奔的模型套个壳子吗？

Claude Code 的核心套路是 CLAUDE.md（项目级指令文件）+ scratchpad（草稿本）。Devin 2024 年 3 月搞的 Planner 面板也是类似思路。AutoGPT 2023 年 3 月就用 write_to_file 和 read_to_file 让模型自己管记忆了。说白了，大家都在做同一件事：给模型发个小本本，让它把重要的事儿记下来。

三、OpenAI 和 Google 早就跟上了

最让我确信"Harness 不是壁垒"的，是今年 SkillsBench 的测评结果。Claude Code 配合 Claude Opus 4.5，在有 Skills（技能文件）加持的情况下，任务成功率提升了 23.3 个百分点。听起来很牛是吧？但你猜怎么着？Gemini CLI + Gemini 3 Flash 组合直接干到了 48.7% 的通过率，位居榜首！

这意味着啥？意味着 Google 的 Gemini CLI 已经能把同样的活儿干得八九不离十了。OpenAI 的 Codex CLI 也在 2025 年上线，虽然功能还简陋点，但核心架构完全照搬 Harness 那套逻辑。就连开源社区都搞出了 OpenCode、Aider 这些替代品。

你看啊，Anthropic 2025 年 2 月发布 Claude Code，2026 年 4 月 8 号推出企业级的 Claude Managed Agents。OpenAI 紧跟着就把 Codex 集成进自家生态。Google 的 Gemini CLI 开源免费，社区 Fork 数蹭蹭涨。这 Harness 的玩法，三个月就被复制得七七八八。

四、源码泄漏后我发现了啥秘密

既然说到这儿了，我得讲讲我在这 51.2 万行代码里挖到的"猛料"。Anthropic 官方一直在吹的"多 Agent 架构"，其实就是三个角色：Planner（规划者）、Generator（生成者）、Evaluator（评估者）。2025 年 11 月还是双 Agent（初始化 + 编码），2026 年 3 月就进化成三 Agent 了。

但我看了代码实现后，整个人都不好了。所谓的"Planner"，就是个带着特定 system prompt 的 Claude 实例；"Generator"是另一个实例；"Evaluator"还是它。三个进程互相发消息，靠的就是读写共享目录里的 JSON 文件。这架构…怎么说呢，跟我大学毕业设计做的分布式爬虫差不多水平。

更逗的是权限控制。Claude Managed Agents 吹得天花乱坠的"沙箱隔离"，代码里就是 Docker container 加几个 iptables 规则。运行时计费 $0.08/ 小时的"黑科技"，本质上是 Redis 里存个 heartbeat timestamp，定时算差值。我不是说这实现不行，我是说——这玩意儿真的有护城河吗？

五、真正的壁垒到底在哪儿？

既然模型不是壁垒，Harness 也不是，那 Anthropic 凭啥 ARR（年度经常性收入）能突破 300 亿美元？这事儿我想了好久，直到我看到 Notion、Asana、Atlassian 这些公司的接入案例才恍然大悟。

生态才是那个真正的护城河。

Rakuten 五个部门接入，每个专项 Agent 一周内部署完成。Sentry 从零到上线只用了几周，原来预估可是要几个月。Notion 里数十个任务并行，知识工作者用它生成网页和 PPT。Asana 搞出了 AI Teammates，Atlassian 把 Agent 塞进 Jira 工作流。这些案例说明啥？说明企业客户要的不是你的模型有多聪明，也不是你的 Harness 有多精巧——他们要的是能直接插进现有工作流的解决方案。

Anthropic 从 2023 年就开始布局 Claude Platform，积累的企业集成、合规认证、销售关系网，这才是竞争对手短时间内抄不走的。就像你不会因为隔壁饭店买了个跟你一样的炒菜机，就把吃了三年的老顾客让出去。

六、我实际用起来是啥感受

说一千道一万，不如上手试试。我在 MacBook Pro M3 Max 上跑了 Claude Code 的本地版（对，就是从泄漏源码里编译出来的那个）。处理一个 2000 行的 Python 项目，让它重构核心模块。

实话实说，体验确实丝滑。Context compaction（上下文压缩）做得挺聪明，当 token 快超限时，它会自动把早期的对话历史总结成 bullet points 存进 scratchpad。Tool use 的延迟大概在 800ms 到 1.2s 之间，比直接用 API 快不少。但你要说这些技术有多独家？我真没觉得。

同样的任务，我换成 Aider（开源替代品）+ GPT-5.2，效果差了大概 15%，但代码也能跑通。用 Cursor IDE 的 Agent 模式，差距在 10% 以内。这说明啥？模型能力的权重占 70%，Harness 的加成最多 30%。而且这 30% 正在快速同质化。

七、给开发者的一些大实话

看到这里，你可能要问：那我该押注哪边？我的建议是——别押注任何单边。

如果你是大厂架构师，记住 Martin Fowler 在 2026 年 3 月写的那篇《Harness Engineering》的核心观点：Harness 的价值不在于技术复杂度，而在于"可积累、可进化、能持续收敛错误的闭环体系"。Prompt 写错了可以改，Context 不够可以加，但 Harness 设计不好，整个 Agent 就会陷入"上下文焦虑"（context anxiety）——这是 Anthropic 自己发明的词儿。

如果你是个人开发者，别被那些营销话术唬住。Claude Managed Agents 一小时收 8 美分，看着不贵，但你跑得多了也是笔开销。Web 搜索 $10/千次，比 GPT-4 的 API 还贵。开源的 Gemini CLI、OpenCode 先用起来，等确实碰到天花板了再考虑付费方案。

还有最重要的一点：Harness 设计正在变成显学。2026 年的面试题里肯定会出现"如何设计一个支持多轮对话的 Agent 脚手架"这种题。你要准备的不是背某个产品的 API，而是理解那六个核心模块（上下文、工具、验证、状态、观测、人类接管）之间的协作关系。