当前位置：首页 > news >正文

【AI 杂谈】Agent的信任壕沟：为什么越强的Agent越没人敢用？

news 2026/6/30 4:15:03

Agent的信任壕沟：为什么越强的Agent越没人敢用？

信号：六家公司不约而同在回答同一个问题

2026年6月下旬，六家公司的六条信息各自独立出现，彼此之间未必通气，但它们共同指向了一件事。

Claude Code的工程一号位Fiona Fung在访谈里说：该算ROI了，“狂烧Token的时代已经过了”。她补了一句更值得琢磨的话——“信任是AI公司最难自动化的东西”

几乎同期，微软在Build 2026上发布了Microsoft Scout——一款被归类为"Autopilot"的新型常驻智能体。从Copilot到Autopilot，产品形态只差一个词，但意思差了十万八千里。Copilot在旁边给建议，审完了人决定做不做；Autopilot这个新品类替你做，你只需要看着。一字之差，越过的不是功能，是信任。

本月上旬Build大会上，GitHub发布了Copilot App，把分散在十几个地方的Agent汇集到一个入口。你以为这是在解决"太散了不好找"的问题——不是。它的底层问题是：当一个人同时跑着五个Agent，他实际上在管理五个半自主的数字员工。管理半径不够用了。

5月下旬，GitLab 19.0把Agentic AI放进了凭证管理和供应链安全。这不是技术升级新闻，这是一个信号：Agent的犯错半径，从"写错一行代码"扩大到了"泄露生产凭证"。过去Agent出问题是bug，现在Agent出问题是事故。

阿里云在同一时期讲了一个新概念：Agent不是云的"一个用户"，而是"核心用户"。这意味着云计算的身份模型得改了——过去是"人操作资源"，将来是"人授权Agent、Agent操作资源"。中间多出来的这一层，整个身份体系还没准备好。

还有一条最容易被当成纯技术方案略过的信息——Uber和Auth0在联合设计多Agent之间的身份传播架构。他们在回答一个比前面所有问题都更根本的东西：Agent到底是"我"还是"它"？如果是"我"的延伸，它可以继承我的权限；如果是独立实体，它需要自己的身份、权限和责任边界。这个问题今天不回答，上面所有架构都是建在沙子上。

六条信息，六个维度——经济层、产品层、体验层、安全层、基础设施层、身份层。各自在各自的领域独立作业，撞上的是同一堵墙。

这堵墙不是Agent不够强。恰恰相反：它强到我们已经没有制度框架来信任它了。

解剖：信任壕沟的五层结构

Agent撞上的不是技术墙，是制度墙。这堵墙有五层，不是并列关系，是递进依赖——上一层不稳，下面全白搭。

第一层：身份。Agent是"我"还是"它"？

这是所有信任问题的起点。Uber和Auth0干的事看起来是工程问题，本质上是治理问题。当一个Agent登录你的GitHub、审批你的合并请求、管理你的生产凭证，它到底是以"你的工具"身份，还是以"一个被授权角色"的身份？

这个区别直接决定出事了找谁。如果是工具，出问题你全责——就跟锤子砸了手不能怪锤子。如果是被授权的角色，那就涉及授权边界、越权行为、代理责任——一套跟法人治理差不多复杂的东西。

Amazon的Alexa团队内部有一个准则：每个Agent在系统里都有一个独立ID，不与人类用户共享命名空间。为什么？不是为了技术方便，是审计需要——事后你必须能分清屏幕那头的每一次操作到底是谁干的（来源：AWS Agentic AI基础设施实践系列）。注：此细节源于AWS公开实践文档，非单一演讲内容。

第二层：授权。我给了它多大权力？边界在哪？

解决了"谁"，下一个是"能干嘛"。微软从Copilot到Autopilot的进化不是随便起的。自动驾驶行业有一个L1到L5的分级体系——L1是辅助驾驶，人主导；L5是无人驾驶，人完全放手。Agent缺的就是这样一个被普遍接受的信任分级。

参考微软Scout的设计方向和行业讨论，可以提炼出一个信任梯度的参考结构：建议模式（Agent给方案，人决定）→ 确认模式（Agent执行，关键操作需人确认）→ 自动模式（Agent在边界内自主执行，事后通知）。这不是技术路径，是信任梯度。不是"给不给权限"的二进制问题，而是"先给1%，证明自己再给2%"的渐进逻辑。

第三层：责任。Agent做错了谁负责？

Claude Code工程一号位谈ROI的时候，很多人听的是价格。但ROI算不出来，根源不在Token贵。根源在于：你不敢把足够多的任务闭环交给Agent，因为没人回答"搞砸了算谁的"。

API7.ai创始人温铭用几百亿Token重写生产级网关后，总结出"AI的能力已经溢出，真正跟不上的，是人"（来源：InfoQ，6月26日）。什么叫人跟不上？不是代码写不出来，是责任体系跟不上。Agent可以生成代码、修改配置、更新依赖——每一步都可能引入风险，但不存在对应的"Agent操作责任矩阵"。传统的变更管理流程里，审批人、执行人、验证人都有明确的人名。Agent塞进去之后，这一套人名逻辑就碎了。

第四层：审计。发生了什么事后我能查吗？

GitLab 19.0把Agent放进安全体系的同时，加了一套Agent操作审计日志。这是对的，但远远不够。今天的Agent决策链是黑箱——它改了文件、发了PR、合并了代码，你拿到的是一个结果，不是一段你读得懂的推理过程。

审计不是存日志，是"可复现性"。人做了错事，你可以把他叫过来问"当时怎么想的"。Agent的"想法"是一堆权重和概率分布，没人看得懂。这就是为什么可解释性不是一个学术趣味问题——它直接关系到审计能不能落地。

第五层：传导。多Agent之间信任如何复合？

这才是最被低估的一层，也是这些信息横向串起来之后才浮现的。

单个Agent的身份、授权、责任、审计已经够复杂了。但当多个Agent组成一条流水线——Agent A写完代码推给Agent B做代码审查，Agent B通过后触发Agent C部署——信任在不同Agent之间怎么传导？A的权限能不能被B继承？如果流水线中间出了事故，是A的错、B没拦住，还是C部署流程有问题？

阿里云说Agent是"核心云用户"，Uber在画多Agent身份传播的架构图，这两个动作放在一起看，说明一件事：信任传导不是一个未来才需要担心的理论问题。Agent流水线已经在生产环境跑了。信任传递机制还没开始设计。

这不是单靠写更多代码能解决的。行业目前在做的全在第一条线上——让Agent更强、更快、更准。但Agent已经够强了。五层信任壕沟，一层比一层深，一层比一层更没人碰。

出路：信任不是靠演示建立的

Agent行业的演示永远在回答同一个问题："你看它能做多少事。"但信任从来不是看演示建立的。信任是你在被允许犯错、被记录过程、被清晰追责的过程中，一点一点积累出来的。

从二进制的开关到渐进的信任梯度。

上一次面对"能不能信任机器"的问题，是在自动驾驶行业。没有任何一个自动驾驶公司跳出来说"我们的车不需要方向盘"。所有人都走了渐进路线：L1辅助、L2部分自动化、L3有条件自动化——每升一级，人后退一步，机器前进一步。

Agent行业现在面对的不是"要不要给Agent权限"，而是"给它1%的权限它能证明自己值得2%吗"。微软Scout的Autopilot模式和人工确认机制提供了一个产品层面的方向，但它只是一个开始。需要的不只是产品功能，而是一套可被独立审计的信任成熟度模型——有点像SOC 2合规，但不是为人类组织设计的，是为人-Agent混合团队的运作模式设计的。

可观测性必须先于自主性。

在Agent学会自主做事之前，它必须先学会解释自己。这个要求不新鲜——任何一个人类团队的新人加入，前三个月都是"你在做什么我都看着、都问"。Agent跳过了这个阶段，一上来就是个不解释的"熟手"，这才是让人不踏实的地方。

技术上做得到。OpenAI的论文已经证明模型可以生成推理链（来源：OpenAI o1 System Card）。问题在于，推理链不等于可审计的解释——前者是模型自言自语，后者是面向人类的可追溯逻辑。GitLab 19.0在Agent操作审计上是起步了，但整个行业需要从Agent设计的第一天就把"可解释性"作为必选项而不是加装包。

信任壕沟是新的护城河。

Claude Code工程一号位那句话值得再拿出来读一遍：“信任是AI公司最难自动化的东西。”

反过来理解这句话：谁先建立信任体系，谁就掌握了下一个时代的护城河。今天Agent的市场竞争是"谁的模型更强"，但模型之间的差距在肉眼可见地缩小。当大家的Agent都能写出差不多的代码、改出差不多的配置时，用户选谁？选那个"它干事我敢背锅"的。这不是道德选择，是理性选择——因为不确定性最低。

信任壕沟不是Agent行业的末日审判。你进到一条真正的战壕里，它保护你不被轰炸。跨过信任壕沟的Agent，才是从实验室走进生产系统的Agent。跨不过去的，就只是另一个做得不错的Demo。区别不在能力，在"你敢不敢把钥匙给它"。

查看全文

http://www.jsqmd.com/news/1093671/