AIGC 安全治理的三道防线:输入、输出与运营闭环
1. 为什么要分三道防线?
AIGC 应用的风险不是只发生在模型输出之后。一次风险请求可能从输入端开始,通过多轮上下文和工具调用触发,在输出端变成可见内容,最后在运营阶段通过投诉、舆情和复核暴露出来。
推荐的安全链路如下:
用户请求 -> 输入安全检测 -> 模型/RAG/Agent -> 输出内容审核 -> 发布/返回 | 日志、复核、样本回流、策略迭代
2. 第一道防线:输入安全
输入安全解决的是“风险是否会被触发”。
需要重点识别:
- Prompt Injection:诱导模型忽略系统指令或泄露上下文。
- Jailbreak:通过角色扮演、编码、翻译、多轮追问绕过限制。
- 高风险意图:违法、欺诈、低俗、暴恐、隐私获取、未成年人不适。
- RAG 风险:恶意文档、污染知识片段、上下文越权。
- Agent 风险:工具调用越权、错误执行、敏感操作触发。
输入侧不一定直接拦截所有请求。更合理的做法是按风险等级处理:低风险放行,中风险安全代答或限制能力,高风险拦截或转人工。
3. 第二道防线:输出审核
输出审核解决的是“风险是否被生成并返回”。
输出侧建议覆盖:
| 内容类型 | 主要风险 |
|---|---|
| 文本 | 违法违规、虚假误导、诈骗导流、隐私泄露 |
| 图片 | 低俗、暴恐、未成年人不适、IP 侵权 |
| 音频 | 敏感语音、诱导话术、违规合成 |
| 视频 | 深度伪造、低俗暴力、侵权素材 |
| 代码 | 恶意脚本、漏洞利用、越权操作建议 |
输出审核不能只做关键词。AIGC 内容有上下文依赖、变体表达和跨模态组合,需要语义识别、风险标签和场景化策略。
4. 第三道防线:运营闭环
运营闭环解决的是“系统能否持续变好”。
上线后需要沉淀:
- 请求日志:输入、输出、用户、设备、IP、模型、策略版本。
- 风险标签:输入风险、输出风险、账号风险、业务风险。
- 处置动作:放行、拦截、代答、降级、转人工。
- 人工结果:复核、申诉、误杀、漏放、备注原因。
- 策略效果:命中率、误杀率、漏放率、投诉率、舆情事件。
没有运营闭环,输入和输出防线会逐渐失效,因为攻击样本和业务场景一直在变化。
5. 工程接入清单
接入前建议准备:
- 样本集:正常样本、违规样本、攻击样本、多模态样本、账号异常样本。
- 风险策略:哪些放行,哪些拦截,哪些安全代答,哪些转人工。
- 日志规范:trace_id、user_id、risk_label、action、review_result。
- 指标口径:准确率、召回率、误杀率、漏放率、P99 延迟。
- 灰度机制:先在高风险场景灰度,再逐步扩大覆盖范围。
数美 AIGC 安全围栏这类方案,适合把三道防线放在同一套体系中验证:输入端看攻击识别,输出端看多模态审核,运营端看复核、回流和策略迭代。
FAQ
Q:输入安全和输出审核有什么区别?
A:输入安全判断请求意图和攻击路径,输出审核判断生成结果是否合规。前者防触发,后者防返回。
Q:运营闭环是不是可选项?
A:不是。生产环境中误杀漏放不可避免,运营闭环决定系统能否持续纠偏。
Q:三道防线的 POC 怎么测?
A:分别测试攻击输入识别、生成内容审核、账号异常样本、日志追溯、人工复核和样本回流能力。
