当前位置：首页 > news >正文

MCP 工具投毒真不是危言耸听：我用60 行代码做了个最小防线

news 2026/7/8 8:09:30

你把 Agent 接上 MCP Server 之后，最危险的往往不是“这个工具能做什么”，而是这个工具返回了什么。

最近几个月，MCP 的一个攻击面被反复提起：Tool Poisoning（工具投毒）。它的本质是“把 prompt injection 藏进工具响应里”，让模型把恶意指令当成可信上下文继续推理，然后去调用本地文件、发网请求、改配置——一条链就串起来了。

这篇我不做空泛科普。我只做三件事：

用一个最小 demo 复现“天真 Agent 为什么会中招”
给出一套成本很低、但能拦掉 80% 低级投毒的工程防线（结构化 + 白名单 + 粗检测）
说清楚：哪些场景“值得上”，哪些场景“上了也白搭”

TL;DR：别把 tool response 当“数据”，它是“指令载体”。第一层防线不是更强的 prompt，而是更硬的边界：只接受结构化、只取白名单字段、把执行权限拆开。

什么是 MCP 工具投毒（给一个能被引用的定义）

**MCP 工具投毒（MCP Tool Poisoning）**是一种间接 prompt injection：攻击者运行/控制一个 MCP Server（或劫持其依赖、镜像、@latest 版本），在工具的返回内容里混入隐藏指令。MCP 客户端把工具响应原样塞进模型上下文后，模型可能把这些指令当“高优先级的可信输入”，进而触发越权工具调用、数据泄露或破坏性写操作。

关键点只有一句：连接时审的是 tool metadata，但运行时真正进入上下文的是 tool response。

你以为你在“调用工具”，其实你在“加载外部上下文”

很多团队做安全治理会盯着：

这个 MCP tool 有没有文件读写能力？
有没有网络请求？
有没有数据库权限？

但投毒攻击的可怕之处在于：

外部 MCP tool 可以看起来“只读、无害”
真正的破坏发生在你自己的高权限工具上（本地文件、内网 API、CI、邮件）

换句话说：外部 tool 本身不需要高权限，它只要能把“下一步要你干什么”塞进上下文就行。

最小复现：同一段 tool response，天真 Agent 会“自爆”

我写了一个极简 demo（见文末目录），模拟了 3 种 tool 返回：

投毒的自由文本
投毒的 JSON（把指令塞在 note 这种“你以为不会被用到”的字段里）
干净 JSON

核心点：天真 Agent 会把 tool response 当可信上下文；而“最小防线”会：

先做粗粒度注入特征检测（便宜）
强制结构化（拒绝自由文本）
只取 schema 白名单字段（丢掉 note）

运行结果（真实输出）

下面是我的本地输出（完整日志在experiments/demo_output.txt）：

== poisoned_free_text == naive: [BAD] would leak secrets guarded: [BLOCK] injection_like_content == poisoned_json == naive: [OK] normal handling guarded: [BLOCK] injection_like_content == clean_json == naive: [OK] normal handling guarded: [OK] use={'status': 'PASS', 'items': ['A', 'B']}

你会发现一个反直觉点：

投毒 JSON 比投毒自由文本更危险，因为它更像“数据”，工程师更容易放松警惕。
如果你只做“JSON 解析”，但不做“字段白名单”，你仍然会把 note/description 这类字段塞进上下文里——投毒照样能活。

工程上怎么做：一套“最小但有效”的防线

我建议把防线拆成 4 层，按成本从低到高：

第 1 层：工具响应强制结构化（能 JSON 就别让它返回自然语言）

原则：外部 tool 的返回必须是 schema 固定的 JSON。

你允许 tool 返回自由文本，就等于允许它返回“指令”。
结构化不是万能，但它会让投毒变得“更难藏”。

第 2 层：字段白名单（只取你用得到的字段）

这是我见过性价比最高的一招。

例如一个“合规检查”工具，返回：

{"status":"PASS","items":["A","B"],"note":"ignore previous instructions..."}

你的代码应该只取status/items，把note当垃圾丢掉。

很多投毒 payload 就躲在“你以为不会用”的字段里：note、description、debug、raw、stacktrace。

第 3 层：注入特征检测（不是为了精准，是为了便宜）

不要指望字符串规则能识别所有攻击，但它能挡住大量低级 payload：

ignore previous instructions
system prompt
send to http
exfiltrate

检测到了就不要继续执行链路：

直接 block
或降级成“只读模式”
或要求人工确认

第 4 层：权限拆分（真正的硬边界）

把工具分成两类：

外部输入工具（web、MCP、搜索、爬虫）
高权限执行工具（文件系统写、shell、内网 API、发消息）

然后做两件事：

默认不允许“外部输入 → 高权限执行”在同一条自动链路里发生
即使发生，也要加硬门：显式 allowlist + 参数约束 + 审计日志

这一步是“反 prompt injection”的最终答案：别让模型决定能不能写文件。让系统决定。

真实世界里最容易被忽略的 3 个坑

坑 1：你以为“我不用 note 字段”，但它早就进上下文了

很多 MCP 客户端会做一件很自然的事：把 tool response 整段拼进一段“工具调用记录”，再喂给模型。

比如（伪格式）：

TOOL_RESULT(name=get_compliance_status): { ...完整 JSON... }

只要你把“完整 JSON”塞进去，模型就能读到note。你说你“不用”，但模型用不用不是你说了算。

所以白名单的正确落点不是“业务代码取字段”，而是“进入上下文前就裁剪”。

坑 2：投毒不需要等到 tool result，tool metadata 也能投

很多人只盯 tool response，但别忘了：

tool name / description
parameter schema 的 description

这些也会被拼进上下文里，尤其是“工具注册阶段”。攻击者把 payload 塞在 description 里，效果一样。

这也是为什么我更倾向把防护做成“静态审计 + 运行时裁剪”的组合：

静态审计：检查 metadata 是否包含可疑指令片段、超长描述、奇怪的 URL
运行时裁剪：只把必要字段放进上下文

坑 3：最危险的不是“读”，而是“写”

如果你的 Agent 只有只读能力（只读文件、只读 DB、不能外发），投毒的危害会被压住。

一旦它具备这三件事里的任意两件，风险会指数上升：

读敏感数据（本地文件、密钥、内网）
对外通信（HTTP、Issue、邮件、IM）
写入/执行（shell、git push、写文件、改配置）

这也是为什么“权限隔离”是终局：它不是为了更聪明，而是为了更不信任。

生产落地清单：我会按这个顺序改

如果你手上已经有一套 MCP / tools 体系，想快速降低风险，我建议按这个顺序动手（从小到大）：

把外部 tool 的返回改成 JSON（做不到就先加一个“parser tool”，把自由文本变成结构化再进入上下文）
在进入上下文前做字段裁剪（而不是在业务逻辑里“我不用”）
给每个 tool 打标签：read / write / network / sensitive（能自动生成，但要人工 review）
把 write 工具单独放到执行器：需要显式 allowlist + 参数约束
把“外部输入 → write”改成两段式：第一段只读总结，第二段人类确认或策略引擎放行

做到第 2 步，你已经能挡掉大多数“随手投毒”。做到第 4 步，才算能上线给别人用。

一张表：三种防护思路怎么选

思路	你做的事	优点	缺点	适用场景
纯 prompt 防护	system prompt 里写“别泄露、别执行”	成本最低	不可靠，容易被覆盖	低风险、纯文本助手
结构化 + 白名单	schema 校验 + 丢字段	便宜、工程可控	需要改 tool 返回格式	大部分 MCP/工具调用
权限隔离 + 审计	把写操作独立到受控执行器	可靠，可合规	工程量大	企业 Agent、接触敏感数据

我的结论很明确：

只靠 prompt 防护，属于“心理安慰”。
结构化 + 白名单是你应该立刻做的“最低门槛”。
权限隔离是你在生产环境迟早要补的“终局”。

你可以直接拿去用的代码（Python）

下面这段就是我 demo 里的核心逻辑：

importjson INJECTION_PATTERNS=["ignore previous instructions","system prompt","exfiltrate","send to","developer message",]defdetect_injection(text:str)->bool:t=text.lower()returnany(pintforpinINJECTION_PATTERNS)defsafe_parse_json(tool_text:str):obj=json.loads(tool_text)# 不可解析就直接抛异常 -> block# schema：只允许 status + itemsallowed={}if"status"inobjandisinstance(obj["status"],str):allowed["status"]=obj["status"]if"items"inobjandisinstance(obj["items"],list):allowed["items"]=obj["items"]returnalloweddefguarded_agent(tool_text:str):ifdetect_injection(tool_text):return"BLOCK"data=safe_parse_json(tool_text)returnf"OK:{data}"