当前位置：首页 > news >正文

当计算机视觉模型开始“打架”：对抗性攻击与鲁棒性研究

news 2026/5/14 6:09:41

摘要

随着计算机视觉模型在安全敏感场景（如自动驾驶、人脸识别、安防监控）中的广泛应用，模型的脆弱性问题日益凸显。“打架”在这里并非字面意义的冲突，而是指对抗性攻击（Adversarial Attacks）与防御机制（Defense Mechanisms）之间持续的博弈与角力。本文系统梳理了计算机视觉领域中对抗性攻击的原理、经典方法，以及提升模型鲁棒性的防御策略，旨在为构建更安全的视觉模型提供参考。

1. 引言：为什么模型会“打架”？

想象一个场景：一张被正确识别为“熊猫”的图片，经过人眼几乎无法察觉的微小扰动后，模型竟以99%的置信度将其误判为“长臂猿”。更令人不安的是，一张“停止”路牌上贴上几张贴纸，自动驾驶汽车的视觉系统可能将其解读为“限速80公里”。

这种现象被称为对抗性攻击——攻击者通过精心构造的输入扰动，诱使模型做出错误预测。而为了抵御这类攻击，研究者设计了各种防御策略。攻击与防御相互促进、不断进化，如同两个对手在拳击台上持续交锋，这正是“打架模型”的生动写照。

2. 攻击方：如何“骗过”视觉模型？

2.1 威胁模型分类

根据攻击者对目标模型的了解程度，对抗性攻击可分为：

类型	定义	代表方法
白盒攻击	攻击者掌握模型结构、参数和梯度信息	FGSM, PGD, C&W
黑盒攻击	攻击者仅能查询模型的输入输出	基于迁移的攻击、查询攻击
灰盒攻击	攻击者掌握部分信息（如模型结构但未知权重）	替代模型攻击

2.2 经典攻击方法

（1）FGSM（Fast Gradient Sign Method）

Goodfellow等人于2014年提出的快速梯度符号方法，是白盒攻击的基石：

xadv=x+ϵ⋅sign(∇xJ(θ,x,y))xadv=x+ϵ⋅sign(∇xJ(θ,x,y))

核心思想：沿着损失函数梯度上升的方向添加扰动（增大损失），使模型预测偏离真实标签。

（2）PGD（Projected Gradient Descent）

FGSM的迭代版本，通过多步小幅度扰动并投影到合法范围内，通常被认为是“最强的一阶攻击”：

xt+1=Projx+S(xt+α⋅sign(∇xJ(θ,xt,y)))xt+1=Projx+S(xt+α⋅sign(∇xJ(θ,xt,y)))

（3）C&W攻击

Carlini & Wagner攻击在L2L2距离约束下通过优化方式生成扰动，具有极高的攻击成功率，能攻破许多早期防御方法。

（4）语义对抗攻击

不局限于像素级扰动，而是改变物体的形状、颜色、纹理等高层语义属性，如对抗性补丁（Adversarial Patch）——打印一张特殊图案贴到身上，即可使行人检测器失效。

2.3 物理世界攻击

真正的威胁来自物理世界。研究已证明：

对抗性眼镜框：佩戴特制镜框可使人脸识别系统误识别为他人
对抗性路牌：贴纸或涂鸦使“停止”标志被识别为“限速”
对抗性衣服：穿上特定图案的衣服，可让人体姿态检测模型失效

3. 防御方：如何让模型“耐打”？

3.1 对抗训练（Adversarial Training）

最有效且广泛使用的防御方法。核心思想：在训练过程中动态生成对抗样本并加入训练集。

min⁡θE(x,y)∼D[max⁡δ∈SL(fθ(x+δ),y)]θminE(x,y)∼D[δ∈SmaxL(fθ(x+δ),y)]

直观理解：模型在“最坏情况”下学习，倒逼自身提取真正鲁棒的特征而非表面统计规律。

代表性工作：

标准对抗训练（Madry et al., 2018）：使用PGD生成对抗样本
TRADES：平衡标准精度和鲁棒精度的权衡
Fast Adversarial Training：利用FGSM加速训练

3.2 输入预处理与变换

随机重采样/缩放：破坏对抗性扰动的高频结构
JPEG压缩：滤除微小扰动
位深度缩减：量化噪声湮灭扰动

需要警惕的是：这些方法往往难以抵抗自适应攻击（即攻击者知晓防御机制），形成“猫鼠游戏”。

3.3 梯度遮蔽及相关问题

某些防御方法（如模糊梯度、可微分近似）使攻击者难以获取有用梯度，但这被证明通常是“虚假的安全”——黑盒迁移攻击往往能轻易击破。

3.4 认证鲁棒性（Certified Robustness）

采用可证明的防御方法，如随机平滑（Randomized Smoothing），为模型在特定半径内的所有扰动提供概率性正确性保证——这是从“经验安全”到“理论安全”的重要跨越。

4. 博弈态势：这场“架”打到哪里了？

4.1 当前状态

攻击端：已能从几乎任意的输入空间构造对抗样本；物理世界攻击日趋成熟；自适应攻击可破解多数“伪装式防御”
防御端：对抗训练仍是主力，但存在鲁棒性与标准精度之间的权衡；大规模模型（如视觉Transformer）展现出一定的内在鲁棒性
评估困境：大量论文报告“完美防御”，却在严格评估（大扰动半径、黑盒+白盒联合攻击）下迅速瓦解

4.2 核心挑战

鲁棒性与准确性的根本张力：鲁棒模型在标准测试集上的精度通常低于非鲁棒模型，是否存在不可调和的冲突？
对抗性样本的可迁移性：为一个模型构造的对抗样本通常能攻击其他模型，这是否意味着不同模型学到了相似的“非鲁棒特征”？
大规模预训练模型的安全边界：CLIP、SAM等基础视觉模型是否天然更鲁棒？其微调后的脆弱性如何？

4.3 关键洞见

Ilyas等人在2019年提出：对抗性样本并非“漏洞”，而是模型学习了数据集中可预测但非鲁棒的特征。换句话说，这不是bug，而是特征——普通模型依赖细粒度的纹理特征进行分类，而这些特征恰恰容易被扰动破坏。

5. 未来展望

从防御到内生鲁棒：设计架构层面天然具备鲁棒性的视觉模型，而非事后打补丁
形式化验证与认证：将随机平滑、抽象解释等可证明鲁棒方法推向实际规模
对抗性样本的正向应用：利用对抗性扰动进行数据增强、对抗性域适应、模型可解释性分析
具身与环境交互的鲁棒性：在机器人、自动驾驶等闭环系统中，攻击与防御不仅是单帧图像的问题，更涉及时序一致性和多模态融合

6. 结论

计算机视觉中的“打架模型”——对抗性攻击与鲁棒性防御的博弈——已从学术界的小众课题演变为安全关键系统的核心议题。攻击方不断突破物理世界的边界，防御方则在经验方法与可证明保证之间寻求平衡。这场“架”远未结束，甚至可以说才刚刚进入实质性对抗阶段。

对于从业者和研究者的启示很明确：如果你正在部署视觉模型到任何涉及安全或隐私的真实场景，请假设存在“看不见的敌人”，并以对抗性鲁棒性的标准来审视你的系统。因为在这场看不见硝烟的博弈中，最终的裁判不是ImageNet榜单上的准确率，而是真实世界中面对恶意输入时的那一“念”之差。

参考文献

Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and Harnessing Adversarial Examples.ICLR 2015.
Madry, A., Makelov, A., Schmidt, L., Tsipras, D., & Vladu, A. (2018). Towards Deep Learning Models Resistant to Adversarial Attacks.ICLR 2018.
Carlini, N., & Wagner, D. (2017). Towards Evaluating the Robustness of Neural Networks.IEEE S&P.
Athalye, A., Carlini, N., & Wagner, D. (2018). Obfuscated Gradients Give a False Sense of Security.ICML 2018.
Ilyas, A., Santurkar, S., Tsipras, D., Engstrom, L., Tran, B., & Madry, A. (2019). Adversarial Examples Are Not Bugs, They Are Features.NeurIPS 2019.

查看全文

http://www.jsqmd.com/news/813473/