当前位置: 首页 > news >正文

模型不是壁垒,Harness 也不是

文章目录

    • 前言
    • 一、先从那个" accidents "说起吧
    • 二、Harness 到底是个啥?别被唬住了
    • 三、OpenAI 和 Google 早就跟上了
    • 四、源码泄漏后我发现了啥秘密
    • 五、真正的壁垒到底在哪儿?
    • 六、我实际用起来是啥感受
    • 七、给开发者的一些大实话
    • 八、这事儿还没完呢

P.S. 无意间发现了一个巨牛巨牛巨牛的人工智能教程,非常通俗易懂,对AI感兴趣的朋友强烈推荐去看看,传送门https://blog.csdn.net/HHX_01

前言

说实话啊,我第一次听说 Anthropic 要搞什么 Claude Managed Agents 的时候,差点把嘴里的咖啡喷屏幕上。啥?Harness?这词儿听起来像是马具厂转行做 AI 了?后来我花了整整三个通宵把相关文档扒了一遍,又亲手把 Claude Code 的源码(对,就是今年 3 月 31 号那场史诗级泄漏的 51.2 万行 TypeScript)逐行啃完,我才猛然醒悟——模型本身压根不是护城河,这套 Harness 也绝对构不成壁垒!

一、先从那个" accidents "说起吧

今年 3 月 31 号,Claude Code v2.1.88 发布。本来就是个常规版本迭代,结果呢?npm 包里多出来一个 59.8MB 的 source map 文件。几个小时之内,全网开发者跟过年似的,51.2 万行源码被镜像、逆向、逐行拆解。我当时就在想:Anthropic 这是要闹哪样?手滑了?还是故意的?

后来真相大白——真的就是 CI/CD pipeline 配置失误。但你知道最搞笑的是啥吗?是这 51 万行代码里暴露的 Harness 实现细节。那些所谓的"核心机密",说白了就是把 prompt 切成两半拼装:前半段是不变的"身份证"(跨会话复用),后半段是每次现拼的"任务单"(根据场景实时生成)。就这?就这!

我跟你说,当我看到那段 assembleSystemPrompt() 函数的注释时,差点没笑出声。Anthropic 在 2025 年 9 月发的《Effective context engineering for AI agents》里吹得天花乱坠的"动态指令拼装",原来就是字符串拼接加几个 if-else。兄弟们,这不是技术壁垒,这是代码能凑活用就行的务实精神啊!

二、Harness 到底是个啥?别被唬住了

搞技术的都知道,大模型本质上就是个基于上下文的概率生成引擎。Prompt Engineering(提示词工程)是第一阶段,Context Engineering(上下文工程)是第二阶段,现在 Anthropic 力推的 Harness Engineering(驾驭工程)就是第三阶段。关系很简单:Prompt ⊂ Context ⊂ Harness。

那 Harness 具体包含啥?根据我拆解的源码和官方文档,一个成熟的 Harness 得有这六个模块:上下文/知识、工具/权限、验证/约束、状态/记忆、可观测性/反馈、人类接管/生命周期。听起来高大上对吧?但你仔细琢磨琢磨——这不就是给裸奔的模型套个壳子吗?

Claude Code 的核心套路是 CLAUDE.md(项目级指令文件)+ scratchpad(草稿本)。Devin 2024 年 3 月搞的 Planner 面板也是类似思路。AutoGPT 2023 年 3 月就用 write_to_file 和 read_to_file 让模型自己管记忆了。说白了,大家都在做同一件事:给模型发个小本本,让它把重要的事儿记下来。

三、OpenAI 和 Google 早就跟上了

最让我确信"Harness 不是壁垒"的,是今年 SkillsBench 的测评结果。Claude Code 配合 Claude Opus 4.5,在有 Skills(技能文件)加持的情况下,任务成功率提升了 23.3 个百分点。听起来很牛是吧?但你猜怎么着?Gemini CLI + Gemini 3 Flash 组合直接干到了 48.7% 的通过率,位居榜首!

这意味着啥?意味着 Google 的 Gemini CLI 已经能把同样的活儿干得八九不离十了。OpenAI 的 Codex CLI 也在 2025 年上线,虽然功能还简陋点,但核心架构完全照搬 Harness 那套逻辑。就连开源社区都搞出了 OpenCode、Aider 这些替代品。

你看啊,Anthropic 2025 年 2 月发布 Claude Code,2026 年 4 月 8 号推出企业级的 Claude Managed Agents。OpenAI 紧跟着就把 Codex 集成进自家生态。Google 的 Gemini CLI 开源免费,社区 Fork 数蹭蹭涨。这 Harness 的玩法,三个月就被复制得七七八八。

四、源码泄漏后我发现了啥秘密

既然说到这儿了,我得讲讲我在这 51.2 万行代码里挖到的"猛料"。Anthropic 官方一直在吹的"多 Agent 架构",其实就是三个角色:Planner(规划者)、Generator(生成者)、Evaluator(评估者)。2025 年 11 月还是双 Agent(初始化 + 编码),2026 年 3 月就进化成三 Agent 了。

但我看了代码实现后,整个人都不好了。所谓的"Planner",就是个带着特定 system prompt 的 Claude 实例;"Generator"是另一个实例;"Evaluator"还是它。三个进程互相发消息,靠的就是读写共享目录里的 JSON 文件。这架构…怎么说呢,跟我大学毕业设计做的分布式爬虫差不多水平。

更逗的是权限控制。Claude Managed Agents 吹得天花乱坠的"沙箱隔离",代码里就是 Docker container 加几个 iptables 规则。运行时计费 $0.08/ 小时的"黑科技",本质上是 Redis 里存个 heartbeat timestamp,定时算差值。我不是说这实现不行,我是说——这玩意儿真的有护城河吗?

五、真正的壁垒到底在哪儿?

既然模型不是壁垒,Harness 也不是,那 Anthropic 凭啥 ARR(年度经常性收入)能突破 300 亿美元?这事儿我想了好久,直到我看到 Notion、Asana、Atlassian 这些公司的接入案例才恍然大悟。

生态才是那个真正的护城河。

Rakuten 五个部门接入,每个专项 Agent 一周内部署完成。Sentry 从零到上线只用了几周,原来预估可是要几个月。Notion 里数十个任务并行,知识工作者用它生成网页和 PPT。Asana 搞出了 AI Teammates,Atlassian 把 Agent 塞进 Jira 工作流。这些案例说明啥?说明企业客户要的不是你的模型有多聪明,也不是你的 Harness 有多精巧——他们要的是能直接插进现有工作流的解决方案。

Anthropic 从 2023 年就开始布局 Claude Platform,积累的企业集成、合规认证、销售关系网,这才是竞争对手短时间内抄不走的。就像你不会因为隔壁饭店买了个跟你一样的炒菜机,就把吃了三年的老顾客让出去。

六、我实际用起来是啥感受

说一千道一万,不如上手试试。我在 MacBook Pro M3 Max 上跑了 Claude Code 的本地版(对,就是从泄漏源码里编译出来的那个)。处理一个 2000 行的 Python 项目,让它重构核心模块。

实话实说,体验确实丝滑。Context compaction(上下文压缩)做得挺聪明,当 token 快超限时,它会自动把早期的对话历史总结成 bullet points 存进 scratchpad。Tool use 的延迟大概在 800ms 到 1.2s 之间,比直接用 API 快不少。但你要说这些技术有多独家?我真没觉得。

同样的任务,我换成 Aider(开源替代品)+ GPT-5.2,效果差了大概 15%,但代码也能跑通。用 Cursor IDE 的 Agent 模式,差距在 10% 以内。这说明啥?模型能力的权重占 70%,Harness 的加成最多 30%。而且这 30% 正在快速同质化。

七、给开发者的一些大实话

看到这里,你可能要问:那我该押注哪边?我的建议是——别押注任何单边。

如果你是大厂架构师,记住 Martin Fowler 在 2026 年 3 月写的那篇《Harness Engineering》的核心观点:Harness 的价值不在于技术复杂度,而在于"可积累、可进化、能持续收敛错误的闭环体系"。Prompt 写错了可以改,Context 不够可以加,但 Harness 设计不好,整个 Agent 就会陷入"上下文焦虑"(context anxiety)——这是 Anthropic 自己发明的词儿。

如果你是个人开发者,别被那些营销话术唬住。Claude Managed Agents 一小时收 8 美分,看着不贵,但你跑得多了也是笔开销。Web 搜索 $10/千次,比 GPT-4 的 API 还贵。开源的 Gemini CLI、OpenCode 先用起来,等确实碰到天花板了再考虑付费方案。

还有最重要的一点:Harness 设计正在变成显学。2026 年的面试题里肯定会出现"如何设计一个支持多轮对话的 Agent 脚手架"这种题。你要准备的不是背某个产品的 API,而是理解那六个核心模块(上下文、工具、验证、状态、观测、人类接管)之间的协作关系。

八、这事儿还没完呢

说到结尾,我突然想起 2025 年底那场关于"AI 工程师"定义的争论。有人说,未来最值钱的是会调模型参数的。也有人说,Prompt 工程师马上就得失业。但看现在这趋势——真正稀缺的是会设计 Harness 的。

不是因为 Harness 技术有多难,而是因为它太新了。大家都还在摸索最佳实践,官方文档写得跟天书似的,社区里的经验贴又支离破碎。这时候谁要是能把一套经过生产环境验证的 Harness 设计方法论开源出来,谁就能收获下一波技术红利。

所以你问我,Anthropic 这次押对了吗?我觉得押对了一半。他们正确地把战场从"模型能力"转移到了"工程化落地",但误以为 Harness 本身能成为壁垒。殊不知在硅谷,只要是代码能实现的,三个月内必有平替。

真正的赢家,永远是那个把技术转化成用户离不开的习惯的狠角色。就像微信做的不是通讯协议,是朋友圈。Anthropic 做的也不该只是 Harness,而是那个让企业用了就回不去的工作流操作系统。

好了,我得去改我的 Agent 配置文件了——刚才那段测试代码好像又触发 context limit 了,心累!你们要是也在折腾这玩意儿,欢迎在评论区留言吐槽。咱们下回见!

P.S. 无意间发现了一个巨牛巨牛巨牛的人工智能教程,非常通俗易懂,对AI感兴趣的朋友强烈推荐去看看,传送门https://blog.csdn.net/HHX_01

http://www.jsqmd.com/news/625722/

相关文章:

  • 接口测试——pytest框架续集怀
  • 百考通:AI助力每一份研究,让实习总结更高效、更专业
  • Shiftbrite驱动库:A6281 RGB LED矩阵的12位级联控制方案
  • qmcdump:2分钟解锁QQ音乐加密文件,让音乐重获自由播放权 [特殊字符]
  • 软件可访问性中的包容性设计原则
  • Rust 异步执行器的任务分配策略
  • 打字不如说话,说话不如截图——AI 代码助手的多模态输入实践捕
  • [读论文]CVPR2023: Neural Implicit Representations for 3D Reconstruction in Continuous Space
  • 你的观点值得被保留!百考通智能降重——为原创保驾护航 ��️
  • 当AI学会编程,我们还能做什么邑
  • GPT-6 Spud倒计时与技术前瞻:AGI前夜的最后冲刺
  • 模电进阶:从混合π模型到放大电路的全频段分析
  • 如何5分钟免费激活Windows和Office:KMS_VL_ALL_AIO智能脚本终极指南
  • Verilog实战:手把手教你实现基2-Booth乘法器(附完整代码与仿真)
  • 13.将手写 Agent 主流程迁移为 LangGraph 最小闭环,并接回 FastAPI + session 外壳
  • 浙江义乌:多家企业依托启山智软“线上商城4.0” 助推大中型企业商城系统建设
  • 《花见小路》与结对编程
  • [PaddleOCR]文本图像矫正模块:从原理到实战的完整指南
  • 自动写文章:我们如何与文字高效协作
  • 告别手动点按!用Python脚本自动化你的Trace32调试工作流
  • 英雄联盟回放文件播放难题的终极解决方案:ROFL播放器深度解析
  • FPGA上板实测:UltraScale+ 40G/50G以太网IP核的完整配置流程与一个奇怪的复位BUG
  • 模型预测控制:从数学到车轮的暴力破解
  • ModuleNotFoundError: No module named langchain_core.pydantic_v1
  • Matlab/Cplex代码功能说明:基于消纳责任权重的两级电力市场优化运行模型
  • crossoverJie把
  • 别再只调参数了!深入OpenCV_contrib模块:手把手编译并实战ESPCN超分与CLAHE增强
  • 充电宝选取建议全流程教程
  • 【AI原生DevSecOps落地指南】:SITS2026首席架构师亲授5大不可跳过的实践拐点
  • 构建毫秒级响应、TB级吞吐、零人工干预的数据Pipeline:揭秘某千亿参数模型背后的12个原子化算子设计