当前位置：首页 > news >正文

变化检测“假阳性灾难”的突围之路：从 SCanNet v1 到 v6 的实战复盘

news 2026/7/29 20:17:28

在遥感变化检测任务中，最让人头疼的往往不是漏检，而是模型在完全没变化的区域疯狂“脑补”出变化——大片假阳性直接让产品无法落地。最近在使用 SCanNet 处理 CD93 数据集（93 张灰度遥感图，45 张有变化 / 48 张无变化）时，就遭遇了这种灾难，并由此展开了一场从架构修补到数据驱动的攻坚。这篇文章完整记录了问题根因、各个版本的尝试、失败教训，以及最终通过合成难负例实现突破的全过程。

1. 起点：触目惊心的假阳性

先看初始对比。当我们把 SCanNet v1、v2 与产品级的 SenseEarth 放在一起评估时，差距是碾压级的：

指标	SCanNet v1	SCanNet v2	SenseEarth
Overall F1 (93图)	0.126	0.086	0.411
Change F1 (45图)	0.183	0.251	0.448
Change Precision	0.101	0.160	0.530
Change Recall	0.930	0.585	0.387
No-change FP (像素)	341K	6,151K	—

SCanNet v2 虽然把变化图的 F1 从 0.183 拉到了 0.251，但在 21 张完全无变化的图上竟然爆出了 615 万个假阳性像素（仅单张 34.png 就贡献了 162 万）。这让 Overall F1 直接跌到 0.086，根本不可用。

初步根因定位：SCanNet 的深层 CD 分支（6 层 ResBlock + Decoder + CSWin Transformer）会将微小的纹理、亮度差异不断放大为“变化”，而 FocalLoss(α=0.75) 又让模型对困难样本极度敏感，相当于在无变化图上不断“挖掘”根本不存在的伪变化。相比之下，SenseEarth 的简洁架构天然就规避了这种过激行为。

2. 第一阶段：回归基线，缓解 FP 爆炸 (v3)

既然 v2 加深 CD head 的策略带来了灾难，我们首先回退到更保守的设计，形成了 v3 基线：

CD head 恢复为 1×1 分类器。
损失函数：FocalLoss(α=0.75, γ=2.0) + DiceLoss。
训练策略：Cosine Annealing + Warmup。

v3 交出的成绩单如下：

指标	SCanNet v1	SCanNet v2	SCanNet v3	SenseEarth
Overall F1	0.126	0.086	0.124	0.411
Change F1 (45)	0.183	0.251	0.326	0.448
Change Precision	0.101	0.160	0.221	0.530
Change Recall	0.930	0.585	0.620	0.387
F1>0.7 变化图数量	7	—	23	31
主要问题	召回虚高	FP 灾难	10 张图 FP>5 万	—

v3 是 SCanNet 自身的最佳版本：变化图 F1 相比 v1 提升 78%，精确率和召回率逐渐走向平衡。但根因并未解决——仍有 10 张无变化图存在严重假阳性，无变化图 FP 总量高达 4,289,226。这说明只要 SCanNet 的复杂 CD 分支还在，训练时的 512×512 随机裁剪就会让它学到局部纹理模式，一旦对整图进行滑窗推理，就会对某些纹理/光照差异产生系统性误判。

3. 第二阶段：试图用“图像级置信度”过滤假阳性 (v4–v5，失败)

一个很自然的想法浮现：能不能加一个图像级分类头，判断“这张图有没有变化”？ 推理时若置信度低于阈值，直接输出全零掩膜，把假阳性图拦在门外。

v4：基于 CD 特征的置信度头

结构：GAP(xc) → FC(128→64) → FC(64→1)，训练时加入 GlobalBCE 损失。
结果：全部 93 张图的 global_conf 全部挤在 0.37–0.46 的窄区间内，0 张被门控，Overall F1 跌至 0.070。
原因：CD 分支的 xc 特征本身就充斥着纹理噪声，全局平均池化无差别地把真变化和噪声混在一起，完全无法分离。

v5：基于差异特征的置信度头

结构：改为 GAP(|f1-f2|) → FC，直接从 backbone 差异图出发，绕开 CD 分支。
结果：置信度集中在 0.41–0.49，仍然没有一张图被滤除，Overall F1 仅为 0.089。
原因：backbone 提取的差异特征同样缺少图像级的判别力，仅靠池化优化无济于事。

这两个版本让我意识到一个关键事实：如果不改变特征源本身的表达能力，无论怎么设计头结构或训练策略，都不可能让模型学会“整张图有没有变化”这件事。

4. 第三阶段：回归数据——合成难负例，一招制敌 (v6)

既然所有模型/策略层面的修补都无法根除假阳性，那问题一定出在训练数据本身。回顾整个训练流程，模型从未见过“看起来有变化但实际上没变化”的样本——而这恰恰是全图推理时假阳性的主要来源。

我提出了一个直接且粗暴的方案：对无变化图像的 T2 时相施加随机亮度、对比度、噪声扰动，生成“貌似变化、实则未变”的难负例，并强制模型在这些样本上输出全零。

具体实现：

训练时，对无变化 crop 的 img_B 以 80% 概率随机施加 brightness shift、contrast scale、Gaussian noise，20% 概率保留原始。
增加一个 suppression loss：mean(sigmoid(pred))，直接压制被扰动样本的所有非零激活。

结果堪称神奇：

版本	Overall F1	Change F1	No-change FP	策略
SenseEarth	0.411	0.448	105,208	独立模型（要求单模型部署）
SCanNet v3	0.124	0.326	4,289,226	FocalLoss + DiceLoss + CosAnnealing
v4	0.070	0.198	8,535,010	CD 特征置信度头
v5	0.089	0.210	5,908,505	差异图特征置信度头
v6	0.258	0.264	81,420	合成难负例 + suppression loss

No-change FP 从 428 万骤降至 8.1 万（降幅 98.1%），直接与 SenseEarth 的 10.5 万站到了同一量级。
Overall F1 翻倍，从 0.124 提升到 0.258。
唯一代价：suppression loss 让模型整体更保守，Change F1 从 0.326 回落到 0.264（召回率有所下降）。

v6 的成功说明，之前所有在模型架构、损失函数、置信度头上的雕花，都没有触及核心矛盾：数据没有教给模型“什么叫没变化”。合成难负例一举将这一矛盾注入训练过程，让模型学会了压制伪变化。

5. 尚存问题与后续方向

虽然 v6 取得了巨大进步，但离完美还有距离：

Change F1 仍偏低 (0.264)：可通过降低 suppression_weight（当前 1.0 → 0.3~0.5）或适当降低推理阈值（当前 0.5 → 0.4）来唤醒部分被压制的真变化。
No-change FP 仍有 8.1 万：与 SenseEarth 的 10.5 万已属同一水平。进一步引入弹性形变等模拟配准误差的扰动，有望继续压缩这一数字。
训练-推理分布不一致：512×512 随机裁剪训练 vs 全图滑窗推理的根本矛盾依然存在。v6 用数据增广大幅缓解了问题，但并未彻底解决。
单模型部署的桎梏：SenseEarth 作为独立模型表现更好，但业务要求单模型部署，SCanNet v6 已经是当前约束下的最优解。若未来可以放松约束，用 SCanNet 做候选提取 + 轻量后处理过滤，效果会更稳健。

6. 复盘总结

这次假阳性攻坚战的核心经验只有一条：
当模型架构修补走到死胡同时，回头检查数据——教给模型的东西，是不是漏掉了最关键的那一课？

v1 到 v5 我们改了 CD head 深度、损失函数、学习率策略、外加分类头……但模型依然会在无变化图上崩溃，因为它从来没有在训练中见到过“被扰动但实际没变”的样本。v6 仅仅通过增广数据的“语义扰动”，就让假阳性降低了两个数量级。这一点在变化检测这种极度依赖上下文和纹理的任务上，远比盲目加深网络或调损失来得有效。

如果读者正在经历类似的假阳性噩梦，建议先别急着改模型，试试问自己：我的训练集里，有没有足够多、足够像的“假变化”去教会模型克制？

完。

查看全文

http://www.jsqmd.com/news/835406/