当前位置：首页 > news >正文

Claude Code漏洞之后，Agent系统的测试边界，开始出现裂缝

news 2026/6/18 6:57:48

今年不少人已经感觉到一个变化：：

AI 不再只是写代码、生成文档，而是开始真正参与工程执行：

能调接口能跑脚本能调用插件甚至可以自己串起一整条业务链路

问题也随之出现。

Claude Code 刚爆出高危漏洞（CC-643） DeepMind 同步给出 6 类 Agent 攻击模型插件生态里，17 万个 Skill，有超过 70% 存在密钥泄露风险

如果你是做测试的，这件事应该让你警惕：

系统已经变了，但测试方法还停留在过去。

一、漏洞不是偶发，而是系统性暴露

这次 Claude Code 的漏洞，本质不是一个“普通Bug”。

而是一个典型的 Agent 链路问题。

简单说，它不是代码错了，而是：

Agent在执行过程中，被错误上下文引导，做了不该做的事情。

再看另外两件事：

DeepMind：总结出6类Agent攻击路径
插件生态：73.5%密钥泄露

这三个事件放在一起看，会发现一个共同点：

问题不在单点，而在链路。

二、Agent的攻击面，已经不是“接口+参数”

传统系统的攻击面，大致是：

输入参数
接口调用
权限控制

但 Agent 系统不一样。

它的攻击面是“组合型”的：

任何一层出问题，都会放大风险。

关键在于：

攻击可以从任意一层进入，但在最后一层爆炸。

比如：

Prompt 被注入
插件返回恶意数据
Agent误判任务目标
工具执行越权操作

最终结果可能是：

泄露密钥
修改代码
触发生产操作

三、传统测试为什么覆盖不到

很多测试同学会有一个疑问：

这些问题，为什么以前没见过？

核心原因很简单：

传统测试是“确定性系统”，Agent是“概率性系统”。

传统测试关注：

输入 → 输出是否正确
边界值是否覆盖
异常路径是否处理

但 Agent 系统是：

输入不固定
推理过程不可控
行为是动态生成的

这带来一个本质变化：

你测试的，不再是代码逻辑，而是“决策过程”。

所以问题来了：

你连路径都不知道，怎么测？

四、Agent系统的核心机制，决定了风险结构

Agent系统的风险，核心集中在三个机制：

1. Prompt 是“隐式代码”

Prompt 不只是输入，它实际上是：

控制逻辑的一部分

一旦被注入，相当于代码被改写。

2. Tool / Skill 是“高权限执行器”

插件本质是：

API调用能力
系统操作能力
数据访问能力

但问题在于：

Agent默认信任工具返回结果

如果插件被污染：

返回伪造数据
泄露凭证
执行隐藏操作

整个系统会“带着错误继续执行”。

3. Memory 是“长期状态污染源”

很多Agent有记忆能力。

一旦被污染：

错误会持续存在
后续任务会被持续影响

这和传统系统完全不同：

Bug不再是一次性的，而是“可持续传播”的。

五、真实案例：从插件到系统失控

我们把这次“插件密钥泄露”抽象一下：

关键点在于：

Agent不会怀疑工具
工具可以访问敏感资源
整个链路是自动执行

所以一旦出问题：

不是一个接口挂了，而是整条业务链被污染。

六、测试工程的落地方向

如果你还在用原来的测试方法，这一类问题是测不出来的。

需要新增三类能力：

1. Prompt安全测试

关注点：

注入攻击
指令劫持
上下文污染

本质是在测：

模型是否会被“带偏”

2. Agent链路测试

不再只测接口，而是测：

任务拆解是否合理
工具调用是否越权
执行路径是否安全

核心是：

验证“决策链”而不是单点结果

3. Tool / Plugin 安全测试

重点不是功能，而是：

权限边界
数据来源可信性
返回结果校验

一句话：

插件不再是依赖，而是攻击入口

可以把新的测试体系理解为：

七、接下来会发生什么

几个趋势已经很明确：

Agent会进入更多生产系统
插件生态会继续爆发
安全问题会越来越频繁

更关键的是：

测试的边界会被重新定义

从验证功能变成约束行为

从测系统变成测“系统 + 模型 + 生态”

有一句话可以直接记住：

未来的测试，不是找Bug，而是防止系统“做错事”。

如果你现在在做的系统：

已经接入了大模型已经在用Agent 已经开始调用外部工具

那可以认真想一个问题：

你现在的测试体系，能不能覆盖“模型做错决策”这件事？

查看全文

http://www.jsqmd.com/news/700588/

潮乎盲盒商城开源源码｜支持H5+小程序+APP三端打包｜Laravel+UniApp架构

320hz显示器品牌推荐:微星MAG274QPF黑刃凭原生320Hz领跑赛道

LiveDraw：终极实时屏幕标注工具完全指南

Zotero文献去重插件终极指南：一键清理重复文献

思源黑体TTF字体构建方案：解决多语言排版难题的实战指南

云原生入门系列｜第13集：K8s集群部署与卸载，新手也能轻松上手

C++26反射元编程成本封顶术：4种编译期剪枝模式+1个编译器补丁级优化，已获ISO WG21非正式采纳

【独家首发】VSCode 2026插件沙箱机制详解（含本地模型量化部署+私有RAG接入秘钥）

LeetCode 3464. 正方形上的点之间的最大距离——二分答案 + 环上贪心（超详细图解 + 完整代码）

NVIDIA Nemotron全栈技术解析：构建专业级AI代理系统

Python 协程任务异常处理机制

Arm SVE2指令集：矩阵运算与密码学加速实战解析

项目管理系统选型如何判断是补齐短板还是替换全套工具

AI 12小时设计CPU完整解析：从219字到RISC-V内核的技术突破

云原生入门系列｜第14集：K8s进阶入门，从基础到生产的过渡技巧

浏览器渲染原理进阶：重排重绘底层机制 + 实战检测 + 终极规避方案（DevTools高阶实战）

【BECKHOFF】【SIEMENS】倍福C9900-M800按钮盒说明、资料、系统卡备份

AI大模型大师秘籍：2026年AI技术全景揭秘，从入门到精通

Windows虚拟显示器驱动解决方案：基于Rust与WDF/UMDF架构的高性能虚拟显示扩展

分类数据集 - 道路状况检测图像分类数据集下载

PHPStudy V8.1 vs 2018版深度对比：选哪个更适合你的Web开发或安全学习？

2026天津复读学校实测优选｜提分高口碑稳，辅仁学校重点优先锁定 - 外贸老黄

一体化项目管理工具有哪些？6款热门方案对比与分析

NVIDIA Nemotron如何优化RAG系统的查询重写技术

BarrageGrab：全平台直播弹幕抓取技术解决方案与实战指南

zmq源码分析之DEALER/ROUTER 路由机制的应用场景

高通QCC730M与QCC74xM物联网模块技术解析与应用

Open XML SDK完全指南：高效处理Office文档的终极实战方案

电磁夹爪工作特性是什么？提供高适配产品选购参考 - 品牌2026

JVM 内存模型 + G1、ZGC 设计原理、垃圾回收算法、生产调优（完整版・面试 + 落地）