当前位置：首页 > news >正文

Agent架构新趋势：从模型能力到系统判断，收藏级深度解析判断工程化

news 2026/7/2 9:42:57

文章指出Agent技术正从关注模型能力转向系统判断工程化。随着系统复杂度增加，将本应结构化的判断交给模型即时完成会导致不可预测性。Claude Skills等方案通过将验证过的能力从prompt中提取为可管理组件，解决这一挑战。未来Agent系统应更关注判断正确性而非输出美观性，判断的工程化和治理将成为技术分水岭。这标志着行业对Agent架构理解的成熟与收敛。

如果从技术演进的角度复盘最近一年的 Agent 项目，一个越来越清晰的事实是：

问题正在从“模型够不够强”，转向“系统如何承载判断”。

Claude、GPT 这类模型在生成能力上已经高度成熟，至少在大多数工程场景中，“能不能生成”早已不是主要限制。

真正开始拖慢系统演化速度的，是我们把大量本该被工程化、被结构化的判断，持续交给模型在运行时即兴完成。

这个问题在系统早期往往不明显。Agent 的第一个原型通常表现良好，一个 prompt，加上一点工具调用，就能跑通完整流程。

但随着场景增多、上下文变复杂、需求开始叠加历史约束，系统会逐渐进入一种工程上非常危险的状态：

行为开始变得不可预测，但你却很难准确定位问题发生在哪一层。

模型参数没有变，数据来源也没有明显变化，业务逻辑看起来仍然成立，但结果却开始呈现出“有时对，有时不对”的不稳定特征。

关键并不在于模型是否足够稳定，而在于系统结构是否在回避一个更基础的问题：

哪些判断应该被固化为系统能力，哪些判断才值得在每一次调用中重新推理。

当所有判断都被交给模型即时完成，系统规模越大，不确定性就会被放大得越快。

从这个角度再回头看 Claude Skills，会发现它并没有试图解决“更强智能”的问题，而是在解决一个更底层、更工程化的难题：

如何把已经被反复验证过的能力，从不透明的 prompt 行为中拆解出来，变成可管理、可复用、可回收的系统组件。

Skill 的价值，并不在于能力本身，而在于它让经验第一次具备了长期资产的形态。

这也是为什么当系统里的 Skills 从十几个增长到几十个、上百个时，能力管理本身会迅速成为瓶颈。

最近看到的特赞科技 atypica.AI 发了一个[skill0]，正是围绕这一问题给出的一个具体实践：

当能力规模扩大，如何让不同团队知道哪些能力已经被验证、哪些仍处在试验阶段，以及如何避免在系统内部反复造轮子。

如果缺少这样一层能力承载机制，所谓的 Agent 架构，最终很容易退化回 prompt 的堆叠。

在这一过程中，Agent 的角色也在悄然发生变化。

与其让 Agent 承担越来越多“会做什么”的职责，不如让它回到一个更克制的位置：理解上下文、做路径选择、判断是否调用某种能力。

执行的确定性尽可能被 Skills 吸收，不确定性才留给推理层处理。到这个阶段，系统关注的重点自然会从“输出是否漂亮”，转向“判断是否正确”。

从行业整体来看，这并不是某一家团队的独立选择，而是一种越来越普遍的工程收敛方向。

当 Agent 真正进入复杂系统、长期运行环境之后，判断如何被工程化、被治理，正在取代模型能力本身，成为新的技术分水岭。

相关文章：