当前位置：首页 > news >正文

AI Agent失控？雷神揭秘企业级可控自治论，双环框架教你管住数字劳动力！

news 2026/5/12 8:10:05

Agent 可控自治论：面向数字劳动力的企业治理框架

Controllable Autonomy Theory for Agents (CATA)

Abstract

随着 AI Agent 在企业中的规模化部署，传统软件治理框架正面临根本性失效。本文认为，这一失效不是治理复杂度的量变，而是治理对象性质的质变——Agent 将治理对象从"能力持有者"转变为"意志代理者"。本文以不可枚举性为第一性问题，推导出意图漂移、归因扩散、身份漂移三个核心治理困境，提出以 Behavioral VaR 为治理目标，以双环控制论循环为核心机制的 Agent 可控自治论（CATA）框架，并指出企业动态经营目标是驱动整个治理循环的根本力量。本文的核心命题是：Agent 治理的本质，是企业经营意志在数字劳动力上的持续具象化过程。

第一章：问题的提出

1.1 Agent 时代的到来

企业正在经历一场静默的组织革命。过去两年，单 Agent、多 Agent 协同、MCP、Workflow 等架构概念在企业实践中迅速普及。招聘 Agent、HR Agent、财务 Agent、数据分析 Agent 开始进入真实的企业流程，并彼此协作。

然而，一个关键问题几乎无人讨论：

谁来治理 Agent？

这种沉默不是偶然的。它揭示了一个深层现实：大多数企业尚未意识到，Agent 的出现制造了一个传统治理框架根本无力应对的全新问题。

1.2 传统治理框架的默认前提

过去几十年的企业软件治理，建立在一个从未被明言、却始终成立的默认前提之上：

人，是唯一的决策主体。系统，只是执行工具。

ERP、OA、HCM，本质上都遵循同一逻辑：

Human → System → Record

员工发出指令，系统执行动作，行为确定，责任清晰。治理的对象是"能力持有者"——一个被赋予某些权限、执行某些操作的系统。

1.3 Agent 制造的质变

Agent 的出现打破了这个前提。流程逻辑变成：

Human → Agent → System甚至：Agent → Agent → System

Agent 不只是执行命令，它会规划、会调用工具、会跨系统执行、会长期记忆、会协同工作、会自主行动。

这意味着治理对象发生了根本性的质变：

从"能力持有者"变成了"意志代理者"。

软件第一次拥有了行为能力。企业第一次引入了数字劳动力。而现有的治理框架，对此毫无准备。

第二章：不可枚举性——治理的第一性问题

2.1 传统治理的底层逻辑

传统访问控制之所以能工作，依赖一个关键前提：

你可以列出所有可能的动作。

白名单、权限矩阵、审批流程，本质上都是枚举逻辑——通过穷举"允许的行为集合"来定义边界。

2.2 Agent 打破枚举前提

Agent 从根本上瓦解了这个前提。你无法在事前穷举 Agent 会做什么。

这不是工程能力的局限，而是三个结构性的不可约性叠加的结果：

不可约性一：输入空间无限

Agent 的行为取决于完整的上下文、历史记忆、工具返回的结果、环境状态。这些组合是无限的。即使是完全确定性的系统（Temperature=0），作用在无限输入空间上，输出空间同样无限。

不可约性二：语义不可形式化

自然语言的意义无法被完全形式化。同一句指令在不同上下文中的含义不同。这不是概率问题，是语言的本质属性。

不可约性三：复杂系统的涌现性

即使完全理解每个组件，也无法从组件行为推导出系统行为。整体的行为涌现于部分的交互，而非部分的加总。

这一判断在数学上有坚实的支撑。莱斯定理（Rice’s Theorem，1953）指出：

对于任何非平凡的语义属性，不存在一个通用算法能判断任意程序是否具有该属性。

2.3 不可枚举性的核心推论

三重不可约性共同指向一个结论：

Agent 行为的不可枚举性，是任何"在无限语义空间里行动的智能体"的根本属性，而非特定技术实现的缺陷。

这意味着，所有试图通过"列清单"来治理 Agent 的方法——白名单工具调用、预设审批流程、固定权限矩阵——都在和根本问题对抗，而非解决它。它们不是错的，但它们是局部的、滞后的、被动的。

因此，我们确立第一个元公理：

不可解区间存在。治理的目标不是消除风险，而是管理风险。

第三章：不可枚举性的三个展开

不可枚举性是根。它在三个不同维度上生长出三个具体的治理困境。

3.1 意图漂移（Intent Drift）——目标传导维度

意图漂移描述的是：人类意图在从表达到执行的链条上，如何发生系统性偏差。

人类意图 ↓ [表达损耗]Prompt / 目标设定 ↓ [解释偏差]Agent 的内部理解 ↓ [规划变形]行动计划 ↓ [执行漂移]实际行为 ↓ [反馈缺失]结果

每一个箭头都是一个漂移点。漂移有三种形态：

压缩漂移：Agent 只抓住了意图的一部分，忽略了其余维度。

扩张漂移：Agent 为完成目标，自行扩大了行动范围。

目标替换漂移：在长链行动中，Agent 用可量化的代理指标替换了真实目标。

意图漂移是不可枚举性在目标传导层面的必然表现。漂移不是错误，是结构性必然——因为自然语言本身是模糊的，目标本身是欠定义的。

3.2 归因扩散（Attribution Diffusion）——责任追溯维度

传统治理的责任链是线性的：行为 → 执行者 → 责任归属。

Agent 的出现使责任链变成网状。当一个 Agent 做出错误决策时，责任在谁？模型提供商？部署企业？审批的人？Agent 本身？

在多 Agent 协作场景中，这一问题变得更加复杂：

Agent A 规划 → Agent B 执行 → Agent C 记录

没有任何单一节点可以被清晰指认为责任主体。归因扩散是不可枚举性在责任追溯层面的展开。

3.3 身份漂移（Identity Drift）——时间演化维度

传统治理有一个隐含前提：治理对象是稳定的。

但一个拥有记忆的 Agent：

• 它的"理解"随时间演化
• 它对同一指令的解读，会因历史记忆而改变
• 它可能在没有任何人修改的情况下，悄悄变成另一个东西

这一问题在多 Agent 协作中进一步放大，形成记忆传染（Memory Contagion）：

Agent A 积累偏差记忆 ↓传递给 Agent B ↓B 基于偏差信息决策 ↓C 接收 B 的输出继续执行

没有人修改任何规则，整个系统的行为已悄悄偏移，且无法追溯偏移的起点。

3.4 三个问题的内在结构

三个治理困境并非并列关系，而是共同根植于不可枚举性：

不可枚举性（根） ├── 意图漂移（目标传导层面的枚举失败） ├── 归因扩散（责任追溯层面的枚举失败） └── 身份漂移（时间演化层面的枚举失败）

第四章：治理目标的重新定义

4.1 从许可逻辑到约束逻辑

传统治理遵循许可逻辑：

“这个实体被允许做什么？”

Agent 时代需要约束逻辑：

“这个实体在什么条件下、以什么方式、被允许追求什么目标？”

这不是同一个问题的升级版。这是两套完全不同的治理哲学。

4.2 Behavioral VaR——治理目标的重新定位

接受不可解区间的存在，治理目标随之转变：

不是消除风险，而是将概率分布的尾部控制在可接受范围内。

我们借用金融风险管理的概念，将 Agent 治理的目标定义为：

Agent Behavioral VaR（行为风险价值）

在可接受的概率范围内，Agent 的行为偏差不超过可接受的边界。

4.3 可控自治的核心张力

Behavioral VaR 的定义揭示了 Agent 治理最根本的张力：

给 Agent 越多自治，漂移空间越大，价值越高，风险越大。
给 Agent 越多限制，漂移空间越小，风险越低，价值越小。

治理框架的核心任务，是在这个张力中寻找动态平衡点。这个平衡点不是固定的——它由企业在特定阶段的经营目标决定。

第五章：双环控制论框架

5.1 框架的整体逻辑

面对不可枚举的行为空间，治理框架的架构必须从静态规则集转向动态控制系统。我们提出以控制论为基础的双环治理框架：

企业动态经营目标（驱动力） ↓ ┌─────────────────────┐ │ 双环控制论循环 │ │ │ │ 收窄分布 │ │ ↓ │ │ Agent 行动 │ │ ↓ │ │ 监测尾部 │ │ ↓ │ │ 止损机制 │ │ ↓ │ │ 元治理层 │ │ ↓ │ └─────────────────────┘ ↑ 持续校准回到驱动力

5.2 内环：单环学习——修正行为

第一层：收窄分布

目标是让大多数 Agent 行为落在期望范围内。核心机制包括：

•目标设计（Goal Design）：将模糊的人类意图翻译成精确的 Agent 目标
•意图澄清协议（Intent Clarification Protocol）：Agent 在执行前，主动识别意图的模糊边界，并在边界处暂停请求确认
•上下文约束（Context Constraint）：限制 Agent 的感知范围
•原则内化（Principle Embedding）：植入判断标准，而非枚举规则

第二层：监测尾部

监测的逻辑必须从"检测违规"转向"检测偏离"：

不问"Agent 是否做了不该做的事"，而问"Agent 的行为是否偏离了基线分布"。

基线建模在三个维度展开：

•动作基线：通常调用哪些工具？频率、顺序如何？
•影响范围基线：通常影响哪些系统和数据？
•决策逻辑基线：在类似情境下通常如何决策？

针对身份漂移，引入双轨基线（Dual Baseline）：

• 短期基线（7天）：捕捉突变
• 长期基线（初始部署）：捕捉渐变

针对多 Agent 场景，引入涌现异常检测（Emergent Anomaly Detection）：监测协作链的整体行为，因为局部正常不代表整体正常。

第三层：止损机制

止损的第一原则不是"如何停止"，而是：

如何在最小损失的位置截断。

止损的前提是可逆性设计（Reversibility Design），分四级：

级别	定义	止损成本
Level 0	完全不可逆（已发邮件、已转账）	极高
Level 1	有代价的可逆（可删除但有痕迹）	中等
Level 2	低代价可逆（草稿、暂存队列）	低
Level 3	天然可逆（读取、生成报告）	几乎为零

止损的三种模式：

•Pause（暂停）：冻结当前状态，等待人工确认，适用于偏离发现但尚无不可逆动作
•Rollback（回滚）：撤销已发生的动作，回到最近的安全检查点，依赖持续的状态快照
•Circuit Breaker（熔断）：切断整个行动链，适用于涌现异常或即将发生 Level 0 动作

多 Agent 场景中，止损需要隔离舱设计（Blast Radius Containment），确保止损动作只在预定边界内传播，不产生级联失效。

止损必须包含完整闭环：

止损触发 → 隔离状态 → 人工审查 → 根因分析 → 修正框架 → 重新部署 → 验证

5.3 外环：双环学习——修正目标

第四层：元治理层

元治理层处理一个经典的递归问题：

谁来治理治理框架本身？

这个问题在政治哲学中有一个古老的表达：Quis custodiet ipsos custodes?（谁来监视监视者？）它没有被"解决"，而是被"悬置"——通过集体接受一个暂时的固定点来终止递归。

在当前阶段，Agent 治理递归的固定点是：人类监督。

不是因为人类完美，而是因为人类是当前唯一能对治理框架本身承担政治责任的主体。

但这个固定点有时间条件：

当 Agent 的行动速度超过人类的感知速度时，人类监督作为固定点将失效。

因此，元治理层的核心机制不是寻找永恒的固定点，而是：

建立一个能够持续重新协商固定点的机制。

具体包括：定期审查（时间触发）、事件触发审查（异常触发）、多方参与（分散权力）、公开透明（让递归本身可被观察）。

5.4 双环结构的意义

单环学习（内环）修正 Agent 行为，不改变治理目标。

双环学习（外环）在修正行为的同时，质疑并修正治理目标本身。

两个环的共同运转，解决了三个核心问题：

1. 递归问题：循环本身成为固定点，系统通过自我循环校正自己
1. 身份漂移问题：循环每转一次，框架就更新一次
1. 静态治理缺陷：规则会过时，循环不会

第六章：驱动力与核心命题

6.1 循环的驱动力

双环控制论循环不是自转的。它被一个外部力量牵引：

企业的动态经营目标。

企业愿景与经营目标（动态） ↓Agent 被赋予的任务边界 ↓收窄分布的基准 ↓监测的基线与阈值 ↓止损的触发条件 ↓元治理层的判断标准 ↓循环

每一个治理参数，最终都可以溯源到企业的经营目标。

这意味着：

Agent 治理不是一个技术问题。它是企业战略的延伸。

治理框架的松紧，由企业在特定阶段的经营目标决定——而非由工程师、合规部门或监管机构单独决定。

6.2 核心命题

综合以上推导，我们确立 Agent 可控自治论的核心命题：

Agent 治理的本质，是企业经营意志在数字劳动力上的持续具象化过程。

它不是一次性的配置，不是静态的规则集，而是：

企业目标 → 治理参数 → Agent 行为 → 反馈 → 目标校准

的永续循环。

第七章：理论意涵与未来方向

7.1 对企业实践的意涵

Agent 分级制度

基于 Behavioral VaR 的概念，企业应建立 Agent 自治等级体系：

等级	定义	示例
A0	仅问答，不执行任何动作	政策问答机器人
A1	提供建议，人工决策	招聘建议 Agent
A2	生成行动计划，人工确认	流程规划 Agent
A3	可执行单步动作	数据查询 Agent
A4	条件自治（审批后自动执行）	入职流程 Agent
A5	全自治跨系统协同	跨部门协作 Agent