当前位置：首页 > news >正文

AI 竞争已转向编排能力：2026.3月智能体工程的核心变革

news 2026/7/22 23:47:12

三月份发生了三件事。

Anthropic 公开了三智能体架构的工程细节。Claude Code 源码泄露了。前千问负责人林俊旸发了一篇长文。

三件事撞在同一个月，指向同一个判断：单智能体的天花板到了，下一个战场在编排框架。

先说让我真正停下来想的那个实验

一个叫 Prithvi 的工程师，让 Claude 在无人干预的情况下连续工作了 4-6 小时，从零搭出一个完整应用。

他的结论不是"Claude 变聪明了"。他的结论是：关键在于三个角色分开干活。

规划器只管范围，不碰实现。生成器冲刺交付，做完自评，再进下一轮。评估器用 Playwright 模拟真实用户，UI、API、数据库三个维度挨个测，任何一项没过就算失败。

这个思路在软件工程里不新鲜——它像极了 GAN。生成器和评估器互相对着干，生成质量才能往上走。只不过在 LLM 时代，梯度反向传播变成了文本反馈。

我做风控的时候就知道一件事：执行者不能自己评判自己。自我评估有系统性宽容倾向，这不是态度问题，是结构性问题。生成和评判必须分离，在 AI 这里同样成立。

两个设计细节，比架构图更值得记

第一个：上下文重置优于压缩。

很多人遇到 AI "虎头蛇尾"的问题——跑着跑着开始敷衍，开始走捷径，开始输出一些"这个功能暂不实现"之类的话。

根源是上下文焦虑。模型感知到窗口快满了，开始收尾。

Prithvi 的解法不是压缩，是清空。把状态写进结构化交接文件，启动新智能体，从文件读状态接着干。上下文归零，但任务连续。

这和我们跑风控批处理任务时的分片逻辑很像——不要指望一个进程撑到底，把状态落盘，分段执行，结果一样可以接。

第二个：评估器是瓶颈，但大家低估了调优难度。

Prithvi 原话："开箱即用的 Claude 是糟糕的 QA 智能体。"

它识别出问题之后，会自我说服"这不是大问题"。它倾向表面测试，藏在深处的 bug 它懒得挖。

调优路径只有一条：读日志、找分歧示例、更新 QA 提示词，循环。没有捷径。

成本这件事得单独说

方案	时长	成本	结果
单智能体	20分钟	$9	核心功能跑不通
完整编排（Opus 4.5）	6小时	$200	功能完整可用
简化编排（Opus 4.6）	3小时50分	$124	核心可用，有明显缺口

20倍成本差。

换来的是从"无法工作"到"可以交付"的质变。对企业来说，开发周期从几周缩到几小时，这笔账不难算。

Marc Lou 同时运营 15 个产品。他的核心逻辑是：当每个项目结构都一样，AI 就不用猜。标准化不是束缚，是上下文锚点。

林俊旸那篇文章说的三阶段

训练模型 → 训练智能体 → 训练系统。

他认为推理模型时代已经过去。智能体式思考要处理四件事：什么时候停止思考开始行动、工具调用的顺序、消化环境里的噪声、失败之后怎么修正计划。

这四件事，模型本身给不了答案。框架给。

Claude Code 泄露这件事暴露了什么

源码被扫了个底朝天：五层架构、六层权限防线、三层记忆系统、Hook 平台。

Anthropic 发了 DMCA，把仓库下架了。24 小时之内，社区用 Python 重写了一个，5 万 star。

两件事：第一，架构本身的价值在于设计思想，不在于代码本身。第二，智能体时代的开源和闭源边界，真的在重构。

一个还没有答案的争议

Opus 4.6 已经能自行消除上下文焦虑行为，冲刺结构被移除了。

这引出一个问题：编排框架是永久架构，还是模型能力不足时的临时拐杖？

Prithvi 的判断是：编排框架的组合空间不会缩小，它在移动。模型进步和框架演进是共生关系，不是零和博弈。

我倾向于同意这个判断。但"谁来评估评估器"这个递归问题，目前还没人给出干净的答案。

给实践者的三条建议

从最简单的方案开始。先跑单智能体，发现瓶颈再加组件。不要一上来就搭三层架构，你大概率用不到，但折腾的时间是真的。

生成和评判必须分离。这是成本最低、收益最高的单一改动。自我评估的宽容倾向是结构性问题，绕不过去，只能从架构上解决。

标准化你的技术栈。项目结构、命名规范、代码约定固化之后，AI 接手的速度和质量都会显著提升。就像老搭档——不用每次都解释背景，直接干活。

最后

模型能力是引擎，编排框架是整车。引擎再好，没有底盘和控制系统，跑不出成绩。

2026 年三月发生的这三件事，说的是同一个变化：AI 竞争从"谁的模型更聪明"，转向"谁的系统更会组织"。

这个转向，才刚刚开始。

查看全文

http://www.jsqmd.com/news/577546/

“敏捷已死”的迷思：从一次非典型胜利看汽车软件开发范式的理性回归

学生党的AI编程经验

ASMR音频下载神器：asmr-downloader一键获取asmr.one海量资源

HoRain云--Julia正则表达式

2025网盘直链解析工具LinkSwift：告别下载限速的终极解决方案

07-EMC滤波器件选型（多孔珠、磁环、复合滤波器件）

【底层重构】C语言100篇：从入门到天花板第33篇指针与结构体：指针访问结构体与动态分配

【Cherry Studio + OpenClaw 2026完全指南】第二章：技能商店精选推荐与安装攻略

第三天（实习无忧）

实战应用：基于快马ai为python项目定制mac系统下的openclaw集成安装方案

轻松加密文件生成exe，无需原程序解密

SEO推广效果解决方案如何提高网站流量

论“贾子哲学”理论体系的建构逻辑与“鸽姆智库”的学术-实践范式

ai辅助开发新体验：在快马平台中智能调优llmfit微调流程

精益生产线系统选型指南：2026年值得推荐的10个精益生产线系统

OpenClaw硬件适配：Qwen3-14B在不同显卡配置下的性能对比

避坑指南：用Cesium Primitive画带厚度的管道，别忘了处理精度和封口！

哈利波特《预言家日报》被麻瓜做出来了！GitHub开源神器两天狂揽12k星

（论文速读）嵌入式GPU上的实时多目标视觉追踪

警告：Polars 2.0默认不启用SIMD加速！3步强制开启AVX-512清洗加速（含Linux/macOS/WSL2三平台安装验证清单）

JiYuTrainer终极指南：如何在课堂上突破极域电子教室限制

intv_ai_mk11高性能部署：transformers量化加载+低延迟响应实测数据

【底层重构】C语言100篇：从入门到天花板第34篇动态内存管理：malloc/calloc/realloc/free 详解

别让“信息差”毁了你的课题申请

信捷XDH PLC与西门子V20变频器Modbus通讯实践：功能实现、配件说明及参数设置

原创论文：基于深度学习的低质量图像增强技术研究

ollama部署QwQ-32B完整教程：支持YaRN的131K上下文推理稳定性验证

claud-code源码分析(六) --------- swarm多agent协作

从游戏玩家到AI创造者：Hearthrock如何重塑你的炉石传说体验

DP——背包DP