当前位置：首页 > news >正文

从FGSM到DeepFool：六大经典对抗攻击算法实战解析与代码实现

news 2026/5/14 12:56:15

1. 对抗攻击入门：为什么你的AI模型会被"骗"？

第一次看到对抗样本时，我盯着那张被篡改的熊猫图片看了半天——明明加了点肉眼几乎不可见的噪声，AI就把它认成了长臂猿。这让我想起小时候玩的魔术贴纸，稍微改变角度就能看到完全不同的图案。对抗攻击的原理其实也有点类似，都是通过精心设计的"障眼法"来欺骗识别系统。

在实战中，我们常用的靶子是一个能识别五种花卉（雏菊、蒲公英、玫瑰、太阳花、郁金香）的CNN模型。这个模型在正常测试集上准确率能达到92%，但面对对抗样本时，它的表现就像突然得了近视——把玫瑰认成郁金香，把向日葵看成蒲公英。最神奇的是，这些"骗术"往往只需要修改几个像素点就能实现。

对抗样本之所以危险，是因为它们揭示了AI系统的脆弱性。就像给自动驾驶系统看一张精心设计的"停止"标志贴纸，人类司机看来完全正常，AI却可能将其识别为"限速60"。2017年就有研究团队用贴纸成功欺骗了特斯拉的Autopilot系统，这个案例让我意识到对抗攻击不只是学术游戏，而是真实存在的安全威胁。

2. 快速攻击之王：FGSM实战详解

2.1 一阶梯度攻击的暴力美学

FGSM(Fast Gradient Sign Method)堪称对抗攻击界的"瑞士军刀"。它的核心思想简单得令人惊讶：沿着损失函数梯度的方向，给图像加上一个固定大小的扰动。用数学公式表示就是：

η = ε * sign(∇x L(θ,x,y)) x_adv = x + η

我第一次实现这个算法时，被它的效率震惊了——只需要一次前向传播和反向传播，就能生成有效的对抗样本。ε这个超参数控制着扰动强度，通常设置在0.05到0.3之间。太小了攻击不成功，太大了又容易被肉眼发现。

2.2 代码实现中的魔鬼细节

在PyTorch中实现FGSM时，有几个关键点需要注意：

def FGSM_attack(image, epsilon, data_grad): # 获取梯度的符号 sign_data_grad = data_grad.sign() # 生成扰动 perturbation = epsilon * sign_data_grad # 生成对抗样本并限制在[0,1]范围 perturbed_image = image + perturbation perturbed_image = torch.clamp(perturbed_image, 0, 1) return perturbed_image, perturbation

实际测试时，我发现对输入图像做归一化处理会影响攻击效果。这也是为什么在准备阶段要去掉transforms.Normalize操作——不是因为它不能工作，而是加了归一化后生成的噪声可视化会变得很奇怪。

2.3 攻击效果可视化分析

用玫瑰图片测试时，原始模型以98%的置信度将其分类正确。加入ε=0.1的扰动后，模型却以87%的把握认为这是郁金香。把噪声放大20倍后观察，会发现扰动主要集中在花瓣边缘和背景交界处——这些正是模型判断类别时依赖的关键特征。

3. 迭代优化攻击：BIM/I-FGSM与PGD

3.1 小步快跑的BIM/I-FGSM

如果说FGSM是"大力出奇迹"，那么BIM(Basic Iterative Method)就是精雕细琢的工匠。它把FGSM的单次攻击拆分成多次小步迭代：

def BIM_attack(image, alpha, data_grad, epsilon): sign_grad = data_grad.sign() perturbation = alpha * sign_grad perturbed_image = perturbation + image # 限制总扰动不超过epsilon perturbed_image = torch.clamp(perturbed_image, 0, epsilon) return perturbed_image.detach()

我在实验中发现，设置α=ε/10（即分10步迭代）通常能取得不错的效果。有趣的是，当迭代次数超过20次后，攻击成功率反而会下降——这可能是因为过度优化导致扰动变得过于明显。

3.2 更稳健的PGD攻击

PGD(Projected Gradient Descent)可以看作是BIM的升级版，主要改进有两点：

在攻击前会给图像添加随机噪声
使用投影而非裁剪来约束扰动范围

def PGD_attack(original_img, image, alpha, data_grad, epsilon): sign_grad = data_grad.sign() perturbation = alpha * sign_grad perturbed_image = perturbation + image # 投影到ε邻域 max_val = original_img + epsilon min_val = original_img - epsilon perturbed_image = torch.max(torch.min(perturbed_image, max_val), min_val) return perturbed_image.detach()

PGD在实际应用中表现更稳定，特别是在对抗训练场景下。我做过一个对比实验：用FGSM生成的对抗样本训练模型，再用PGD攻击时成功率仍有60%；而用PGD样本训练过的模型，对PGD攻击的抵抗力明显更强。

4. 精准外科手术：JSMA与C&W攻击

4.1 JSMA的像素级精修

JSMA(Jacobian-based Saliency Map Attack)走的是完全不同的路线——它不像梯度方法那样全局扰动，而是精挑细选几个关键像素进行修改。这就像用手术刀而不是大锤来破坏识别系统。

算法核心是计算saliency map：

def JSMA_attack(image, model, theta, target_class, mask): # 计算Jacobian矩阵 jacobian = compute_jacobian(model, image) # 计算saliency map alpha = jacobian[target_class] beta = sum(jacobian) - alpha saliency_map = (alpha * torch.abs(beta)) * (1 - torch.eye(num_pixels)) # 选择影响最大的两个像素 max_idx = torch.argmax(saliency_map * mask) p1, p2 = max_idx // num_pixels, max_idx % num_pixels # 更新像素值 perturbed_image = image.clone() perturbed_image.view(-1)[p1] += theta perturbed_image.view(-1)[p2] += theta return perturbed_image.clamp(0,1), update_mask(mask,p1,p2)

这个算法最大的挑战是计算量——对于128x128的图像，Jacobian矩阵就要计算16384x5=81920次梯度。我在笔记本上跑一次攻击要20多分钟，后来改用CUDA加速才把时间降到3分钟以内。

4.2 C&W的优化艺术

C&W(Carlini & Wagner)攻击是我见过最优雅的方法之一。它将对抗攻击转化为带约束的优化问题：

minimize ||δ|| + c·f(x+δ) s.t. x+δ ∈ [0,1]

其中f是设计的损失函数，确保模型会误分类。代码实现中最关键的是损失函数的选择：

def cw_loss(output, target): # 实现f6损失函数 Z_t = output[0][target] Z_i = torch.max(output[0][:target].max(), output[0][target+1:].max()) return torch.relu(Z_i - Z_t)

在实际测试中，我发现设置c=1通常就能取得很好效果。与JSMA相比，C&W生成的扰动更均匀，视觉上更不易察觉，但计算成本也更高——平均需要迭代300-500次才能收敛。

5. 最小扰动专家：DeepFool算法解析

5.1 寻找决策边界的距离

DeepFool的聪明之处在于，它把图像想象成特征空间中的一个点，然后计算这个点到最近决策边界的距离。算法会不断把图像往边界推，直到它被错误分类。

核心迭代步骤：

def DeepFool_attack(image, model): while True: # 计算当前分类 output = model(image) original_class = output.argmax() # 计算到最近边界的距离 w = compute_normal_vector(model, image, original_class) f = compute_distance(output, original_class) # 更新图像 perturbation = (f + 1e-4) / torch.norm(w) * w image = (image + perturbation).detach() if model(image).argmax() != original_class: break return image

5.2 实战中的调优技巧

在花卉分类任务上，DeepFool平均只需要2-3次迭代就能成功攻击。我通过实验发现几个有趣现象：

对置信度越高的样本，所需扰动越小
相似类别间（如玫瑰和郁金香）的转换比差异大的类别更容易
添加L2正则化可以使扰动分布更自然

与其他方法相比，DeepFool生成的扰动通常是最小的，平均L2距离只有FGSM的1/5左右。这也让它成为评估模型鲁棒性的黄金标准。

6. 防御之道：对抗训练实战建议

面对这些攻击，我总结出几条实用的防御经验：

对抗训练：在训练数据中加入PGD生成的对抗样本，能显著提升模型鲁棒性。我通常采用ε=0.03的8步PGD样本，比例控制在20%-30%。
输入预处理：JPEG压缩、随机调整亮度和对比度等操作，可以过滤掉部分对抗扰动。实测表明，简单的随机调整（幅度0.9-1.1）就能降低FGSM攻击成功率约15%。
模型集成：训练多个结构不同的模型，通过投票机制做决策。当攻击者不知道具体使用哪个模型时，很难生成通用的对抗样本。
检测机制：监控输入的异常梯度模式。我在最后一个卷积层后添加了一个小型检测网络，能识别出约70%的对抗样本。

这些方法没有银弹，最佳策略往往是组合使用。在我的花卉分类项目里，经过对抗训练的模型在面对FGSM攻击时，准确率能从12%回升到68%——虽然还不够完美，但已经大幅提升了实用性。

查看全文

http://www.jsqmd.com/news/815282/