当前位置: 首页 > news >正文

AI 竞争已转向编排能力:2026.3月智能体工程的核心变革

三月份发生了三件事。

Anthropic 公开了三智能体架构的工程细节。Claude Code 源码泄露了。前千问负责人林俊旸发了一篇长文。

三件事撞在同一个月,指向同一个判断:单智能体的天花板到了,下一个战场在编排框架。


先说让我真正停下来想的那个实验

一个叫 Prithvi 的工程师,让 Claude 在无人干预的情况下连续工作了 4-6 小时,从零搭出一个完整应用。

他的结论不是"Claude 变聪明了"。他的结论是:关键在于三个角色分开干活。

规划器只管范围,不碰实现。生成器冲刺交付,做完自评,再进下一轮。评估器用 Playwright 模拟真实用户,UI、API、数据库三个维度挨个测,任何一项没过就算失败。

这个思路在软件工程里不新鲜——它像极了 GAN。生成器和评估器互相对着干,生成质量才能往上走。只不过在 LLM 时代,梯度反向传播变成了文本反馈。

我做风控的时候就知道一件事:执行者不能自己评判自己。自我评估有系统性宽容倾向,这不是态度问题,是结构性问题。生成和评判必须分离,在 AI 这里同样成立。


两个设计细节,比架构图更值得记

第一个:上下文重置优于压缩。

很多人遇到 AI "虎头蛇尾"的问题——跑着跑着开始敷衍,开始走捷径,开始输出一些"这个功能暂不实现"之类的话。

根源是上下文焦虑。模型感知到窗口快满了,开始收尾。

Prithvi 的解法不是压缩,是清空。把状态写进结构化交接文件,启动新智能体,从文件读状态接着干。上下文归零,但任务连续。

这和我们跑风控批处理任务时的分片逻辑很像——不要指望一个进程撑到底,把状态落盘,分段执行,结果一样可以接。

第二个:评估器是瓶颈,但大家低估了调优难度。

Prithvi 原话:"开箱即用的 Claude 是糟糕的 QA 智能体。"

它识别出问题之后,会自我说服"这不是大问题"。它倾向表面测试,藏在深处的 bug 它懒得挖。

调优路径只有一条:读日志、找分歧示例、更新 QA 提示词,循环。没有捷径。


成本这件事得单独说

方案

时长

成本

结果

单智能体

20分钟

$9

核心功能跑不通

完整编排(Opus 4.5)

6小时

$200

功能完整可用

简化编排(Opus 4.6)

3小时50分

$124

核心可用,有明显缺口

20倍成本差。

换来的是从"无法工作"到"可以交付"的质变。对企业来说,开发周期从几周缩到几小时,这笔账不难算。

Marc Lou 同时运营 15 个产品。他的核心逻辑是:当每个项目结构都一样,AI 就不用猜。标准化不是束缚,是上下文锚点。


林俊旸那篇文章说的三阶段

训练模型 → 训练智能体 → 训练系统。

他认为推理模型时代已经过去。智能体式思考要处理四件事:什么时候停止思考开始行动、工具调用的顺序、消化环境里的噪声、失败之后怎么修正计划。

这四件事,模型本身给不了答案。框架给。


Claude Code 泄露这件事暴露了什么

源码被扫了个底朝天:五层架构、六层权限防线、三层记忆系统、Hook 平台。

Anthropic 发了 DMCA,把仓库下架了。24 小时之内,社区用 Python 重写了一个,5 万 star。

两件事:第一,架构本身的价值在于设计思想,不在于代码本身。第二,智能体时代的开源和闭源边界,真的在重构。


一个还没有答案的争议

Opus 4.6 已经能自行消除上下文焦虑行为,冲刺结构被移除了。

这引出一个问题:编排框架是永久架构,还是模型能力不足时的临时拐杖?

Prithvi 的判断是:编排框架的组合空间不会缩小,它在移动。模型进步和框架演进是共生关系,不是零和博弈。

我倾向于同意这个判断。但"谁来评估评估器"这个递归问题,目前还没人给出干净的答案。


给实践者的三条建议

从最简单的方案开始。先跑单智能体,发现瓶颈再加组件。不要一上来就搭三层架构,你大概率用不到,但折腾的时间是真的。

生成和评判必须分离。这是成本最低、收益最高的单一改动。自我评估的宽容倾向是结构性问题,绕不过去,只能从架构上解决。

标准化你的技术栈。项目结构、命名规范、代码约定固化之后,AI 接手的速度和质量都会显著提升。就像老搭档——不用每次都解释背景,直接干活。


最后

模型能力是引擎,编排框架是整车。引擎再好,没有底盘和控制系统,跑不出成绩。

2026 年三月发生的这三件事,说的是同一个变化:AI 竞争从"谁的模型更聪明",转向"谁的系统更会组织"。

这个转向,才刚刚开始。

http://www.jsqmd.com/news/577546/

相关文章:

  • “敏捷已死”的迷思:从一次非典型胜利看汽车软件开发范式的理性回归
  • 学生党的AI编程经验
  • ASMR音频下载神器:asmr-downloader一键获取asmr.one海量资源
  • HoRain云--Julia正则表达式
  • 2025网盘直链解析工具LinkSwift:告别下载限速的终极解决方案
  • 07-EMC滤波器件选型(多孔珠、磁环、复合滤波器件)
  • 【底层重构】C语言100篇:从入门到天花板 第33篇 指针与结构体:指针访问结构体与动态分配
  • 【Cherry Studio + OpenClaw 2026完全指南】第二章:技能商店精选推荐与安装攻略
  • 第三天(实习无忧)
  • 实战应用:基于快马ai为python项目定制mac系统下的openclaw集成安装方案
  • 轻松加密文件生成exe,无需原程序解密
  • SEO推广效果解决方案如何提高网站流量
  • 论“贾子哲学”理论体系的建构逻辑与“鸽姆智库”的学术-实践范式
  • ai辅助开发新体验:在快马平台中智能调优llmfit微调流程
  • 精益生产线系统选型指南:2026年值得推荐的10个精益生产线系统
  • OpenClaw硬件适配:Qwen3-14B在不同显卡配置下的性能对比
  • 避坑指南:用Cesium Primitive画带厚度的管道,别忘了处理精度和封口!
  • 哈利波特《预言家日报》被麻瓜做出来了!GitHub开源神器两天狂揽12k星
  • (论文速读)嵌入式GPU上的实时多目标视觉追踪
  • 警告:Polars 2.0默认不启用SIMD加速!3步强制开启AVX-512清洗加速(含Linux/macOS/WSL2三平台安装验证清单)
  • JiYuTrainer终极指南:如何在课堂上突破极域电子教室限制
  • intv_ai_mk11高性能部署:transformers量化加载+低延迟响应实测数据
  • 【底层重构】C语言100篇:从入门到天花板 第34篇 动态内存管理:malloc/calloc/realloc/free 详解
  • 别让“信息差”毁了你的课题申请
  • 信捷XDH PLC与西门子V20变频器Modbus通讯实践:功能实现、配件说明及参数设置
  • 原创论文:基于深度学习的低质量图像增强技术研究
  • ollama部署QwQ-32B完整教程:支持YaRN的131K上下文推理稳定性验证
  • claud-code源码分析(六) --------- swarm多agent协作
  • 从游戏玩家到AI创造者:Hearthrock如何重塑你的炉石传说体验
  • DP——背包DP