当前位置：首页 > news >正文

变化检测不是图像相减：时序特征建模与可解释机器学习实战

news 2026/7/10 6:01:27

1. 这不是“检测变化”那么简单：它是在教机器读懂世界呼吸的节奏

“Let us Look at Change Detection and Machine Learning.”——这句话乍看像一句课堂开场白，甚至有点老派、温和，仿佛在邀请你一起翻开一本泛黄的讲义。但如果你真把它当成了入门导语，那接下来踩的坑，可能比误入一片未标注的沼泽还深。我做变化检测（Change Detection）相关项目整整11年，从遥感影像里找十年前被填平的鱼塘，到工厂产线上毫秒级识别装配错位的螺丝，再到城市交通流中捕捉异常拥堵的萌芽点……所有这些，背后都不是“两张图一减就完事”的简单逻辑。变化检测的本质，是让机器在时间维度上建立因果直觉——它不只问“哪里变了”，更得回答“为什么变”“变是否合理”“变之后会怎样”。而机器学习，尤其是深度学习，不是给这个任务加个“智能滤镜”，而是彻底重构了我们定义“变化”的底层语法。

核心关键词——Change Detection（变化检测）、Machine Learning（机器学习）、Temporal Analysis（时序分析）、Feature Representation（特征表征）、Anomaly Interpretation（异常可解释性）——这五个词串起来，就是整条技术链的脊椎。它们不是并列关系，而是层层嵌套：没有鲁棒的Feature Representation，Temporal Analysis就是空中楼阁；没有可解释的Anomaly Interpretation，再高的准确率也等于把黑箱扔进生产现场；而Change Detection本身，早已不是遥感或GIS领域的专属术语，它正以“时序差异建模”的新身份，渗透进IoT设备日志、金融交易流水、医疗监护波形、甚至短视频平台的用户行为序列里。适合谁来读？不是只盯着论文指标的纯研究者，而是手握真实数据、要解决具体问题的工程师、数据分析师、算法落地负责人——你可能刚收到老板邮件：“上个月客户投诉率突增23%，能不能从系统日志里定位出最早出现异常的那个模块？”或者“这批光伏板发电效率曲线和历史同期对不上，但人工巡检没发现物理损坏，到底哪块板子开始‘偷懒’了？”——这些问题，就是变化检测最真实的战场。它不炫技，但必须扛住压力；它不追求SOTA，但要求结果能被业务方听懂、敢拍板。

我见过太多团队栽在第一步：把变化检测当成一个“模型选型问题”。他们花两周调通一个U-Net变体，在公开数据集上刷出98.7%的IoU，然后兴冲冲部署到产线——结果第一周就漏报了三次关键部件的微裂纹，因为训练数据全是强光照下的高清图，而实际产线摄像头在凌晨三点的冷凝水雾里拍出来的图，信噪比低得像隔着毛玻璃看指纹。变化检测的成败，70%取决于你如何定义“变化”，剩下30%才是模型怎么学。这个定义过程，需要你亲手拆解业务场景的时间颗粒度（是按秒、分钟、天，还是按事件周期？）、空间敏感度（是像素级偏移，还是区域级功能退化？）、语义层级（是“颜色变了”，还是“锈蚀开始了”，或是“轴承寿命进入衰减期”？）。这篇文章不会给你一个万能代码仓库，但会带你亲手打磨一把属于你自己的“变化解剖刀”——从原理内核到实操陷阱，从遥感卫星图到手机App埋点日志，全部打通。你不需要是深度学习博士，但得愿意蹲下来，看清数据在时间轴上真实的褶皱。

2. 内容整体设计与思路拆解：为什么放弃“图像相减”，选择“时序特征蒸馏”

2.1 传统方法的三重天花板：为什么“相减”在真实世界里频频失灵

很多初学者接触变化检测，第一反应就是“两幅图相减，阈值分割，完事”。这种直觉没错，但它建立在一个脆弱的假设上：两幅图的成像条件完全一致。现实呢？我拿自己2018年参与的一个城市扩张监测项目举例：我们用同一颗卫星，间隔6个月拍摄同一片郊区，目标是识别新建住宅区。第一次处理时，直接用归一化后的灰度图相减，结果热力图上全是“伪变化”——不是房子，是农田里不同生长期的水稻反光差异、雨后裸露土壤的湿度变化、甚至云影边缘的渐变过渡。原因很简单：相减操作放大了所有非目标扰动。它把“太阳高度角变化导致的阴影位移”、“大气散射系数波动引起的整体亮度漂移”、“传感器自身老化带来的响应偏移”，统统当成了“土地利用变化”。

这暴露了传统方法的第一个天花板：对成像几何与辐射畸变零容忍。解决它需要复杂的预处理流水线：严格配准（sub-pixel level）、辐射定标、大气校正、甚至BRDF（双向反射分布函数）建模。一套流程跑下来，单张图处理耗时从几秒飙升到十几分钟，而一个中等城市需要处理上千景影像。第二个天花板是语义鸿沟：相减结果是一堆像素差值，但业务方要的是“这里新增了3栋25层住宅，配套一所小学”。传统方法无法跨越像素值到地理实体的语义跃迁。第三个天花板最致命：无法处理非线性、非刚性变化。比如森林火灾后的植被恢复，不是简单的“烧黑→变绿”线性过程，而是经历焦土、苔藓、灌木、乔木的多阶段演替，每个阶段的光谱特征完全不同。相减法在这种动态过程中，连“起点”和“终点”都难以准确定义。

2.2 机器学习范式的根本性转向：从“计算差异”到“学习差异的生成机制”

机器学习，特别是深度学习，不是给相减法加个神经网络外壳，而是彻底重构了问题框架。它的核心转向有三点：

第一，将“变化”重新定义为“时序特征空间中的流形迁移”。
不再纠结于原始像素值的绝对差，而是让模型学习：在某个高维特征空间里，同一地点在t1时刻的特征向量F1，和在t2时刻的特征向量F2，它们之间的距离/方向/路径，是否符合某种已知的“正常变化模式”。比如，对于健康光伏板，F1到F2的迁移路径应该落在一个由历史清洁-积尘-清洗循环构成的环状流形上；而一旦出现隐裂，路径就会突然偏离这个环，跳向一个从未见过的簇。这个思想，直接催生了Siamese网络、孪生自编码器（Siamese Autoencoder）等架构——它们强迫网络学习一种“不变性特征”，即对光照、角度等干扰鲁棒，但对真实物理状态变化敏感。

第二，引入“变化先验知识”作为模型的硬约束。
纯数据驱动容易过拟合噪声，所以顶尖方案都会嵌入领域知识。例如，在电网故障检测中，我们知道电压骤降必然伴随电流尖峰，且两者存在严格的相位关系。于是，模型结构里会设计一个“物理一致性损失项”（Physics-Informed Loss），强制预测的变化图在电压通道和电流通道上的激活区域必须满足这个相位约束。这就像给AI配了一位经验丰富的老师傅，随时纠正它天马行空的猜测。

第三，构建“变化-原因-影响”的三级推理链。
最高阶的变化检测系统，已经不满足于输出“哪里变了”，而是要回答“为什么变”和“会怎样”。这需要多任务学习（Multi-Task Learning）：主干网络共享特征，分支1预测变化掩膜（What changed），分支2预测变化类型（Why: 如“设备过热”、“连接松动”、“软件bug”），分支3预测短期影响（How: 如“预计停机2小时”、“下游服务延迟上升15%”）。我在2022年为某汽车厂做的焊点质量监控系统，就采用了这种设计。当模型检测到焊点强度参数序列出现异常波动时，分支2会输出“电极磨损超限”（而非笼统的“工艺异常”），分支3则联动MES系统，自动推送“更换电极”工单，并预估当前批次合格率将下降至92.3%——这个数字，直接决定了是否启动紧急复检。

2.3 我们的实战架构选型：为什么是“双流CNN+时序注意力+可解释性门控”

基于上述思考，我们为通用变化检测任务设计了一个平衡鲁棒性、精度与可解释性的架构，代号“ChronoGate”（时间之门）。它不是追求SOTA的学术玩具，而是为工业现场打磨的工具：

双流CNN主干（Dual-Stream CNN Backbone）：
不用单个网络同时处理t1和t2图像（易混淆时序信息），而是用两个权重共享的CNN分支，分别提取t1和t2的深层特征图。这样设计，强制网络学习“同一地点在不同时刻”的特征对应关系，天然规避了配准误差放大的问题。我们选ResNet-34而非更重的ResNet-101，因为实测发现，在多数工业场景（如PCB缺陷检测、管道腐蚀监测）中，浅层纹理和中层结构特征已足够判别变化，更深的网络反而因过拟合小样本而泛化变差。
时序注意力融合模块（Temporal Attention Fusion Module）：
这是核心创新点。它不简单拼接或相减两个特征图，而是计算一个“时序注意力权重图”：对每个空间位置（x,y），网络动态学习一个权重α(x,y)∈[0,1]，表示“t2特征在此处的重要性比例”。最终融合特征 = α * F2 + (1-α) * F1。这个α图，本身就是一张高分辨率的“变化敏感度热力图”——α值越接近1的区域，说明模型认为t2时刻的信息越关键，往往对应着真实变化发生地。我们在风电叶片巡检项目中发现，这个α图能精准聚焦在叶尖微裂纹区域，而背景云层、阴影的α值始终稳定在0.4~0.6之间，证明其抗干扰能力。
可解释性门控头（Interpretable Gating Head）：
在最终分类头前，加入一个轻量级门控网络。它接收融合特征和原始t1/t2图像的全局统计量（如均值、方差、梯度能量），输出一个“可信度分数”和一个“变化类型置信度向量”。更重要的是，它通过Grad-CAM技术，实时生成“决策依据热力图”，清晰显示模型是根据叶片表面的哪一小块区域（比如0.5mm²的漆面剥落）做出“存在结构性损伤”的判断。这个设计，直接解决了甲方工程师最头疼的问题：“你这个AI说坏了，但我看不出它凭什么这么说？”

选择这套架构，不是因为它最新潮，而是因为每一步都直击工业落地的痛点：双流设计解决数据预处理噩梦，时序注意力提供物理可解释的中间产物，门控头则把黑箱决策变成白盒对话。下面，我们就进入血肉丰满的实操环节。

3. 核心细节解析与实操要点：从数据准备到模型诊断的魔鬼细节

3.1 数据准备：不是“越多越好”，而是“越准越狠”

变化检测的数据准备，是整个项目成败的基石，其重要性远超模型训练本身。我见过太多团队，花80%时间调参，却用20%时间随便扒拉几组网上下载的遥感图，结果模型在测试集上表现完美，一上产线就崩盘。核心原则只有一条：你的训练数据，必须精确复现线上环境的“变化光谱”。

“变化光谱”是什么？它是你业务场景中所有可能的真实变化类型的集合，以及每种变化在数据层面的表现形式。比如，对智慧农业的病虫害监测，“变化光谱”包括：

稻瘟病：叶片出现褐色椭圆斑，初期斑点小（<2mm），后期融合成片，光谱上近红外波段反射率显著下降；
稻飞虱：植株基部发黑、倒伏，但叶片本身无明显色斑，光谱变化微弱，主要体现为三维点云高度值骤降；
干旱胁迫：整片田块均匀褪绿，可见光波段反射率整体升高，但纹理变得粗糙。

如果你的训练数据只包含“稻瘟病”图像，那模型对“稻飞虱”就是睁眼瞎。因此，数据准备的第一步，是绘制你的专属变化光谱图。方法很简单：召集一线人员（农技员、产线班组长、运维工程师），用白板列出过去一年所有已知的真实变化事件，标注其发生时间、位置、物理表现、数据特征（图像、波形、日志关键词等）。这张图，就是你数据采集的唯一指南针。

实操要点一：负样本的黄金比例与构造艺术
变化检测天然面临严重类别不平衡——99%的像素是“未变化”。但简单地随机下采样负样本，会丢失关键信息。我们的经验是：负样本必须包含“最难区分的未变化”。比如在道路破损检测中，“刚修补完的沥青路面”和“完好沥青路面”，在RGB图上几乎无法分辨，但它们的热红外图像温度分布不同。因此，我们专门采集这类“边界负样本”，并确保其占总负样本的30%~40%。具体操作：用聚类算法（如K-Means）对所有未变化区域的特征向量聚类，人工挑选离群簇（即特征最独特、最易被误判为变化的簇）作为重点负样本源。

实操要点二：时间对齐的毫米级精度
t1和t2图像的空间配准误差，必须控制在0.3个像素以内。否则，即使模型再强，也会把配准残差当成变化。我们不用通用配准工具（如OpenCV的SURF），而是采用场景自适应配准：先用粗粒度（如256×256）的特征匹配（基于ORB），得到初始变换矩阵；再在ROI（Region of Interest）内，用亚像素级的相位相关法（Phase Correlation）进行精配准。关键技巧：配准过程必须在原始传感器数据（DN值）上进行，而非经过Gamma校正或对比度拉伸的展示图。后者会扭曲像素间的相对关系，导致精配准失效。我们在一个港口集装箱吊装监控项目中，因误用展示图配准，导致吊具微小晃动被持续误报为“集装箱位移”，返工一周才修正。

实操要点三：标签的“三层穿透式”标注法
变化标签不能只是“0/1”二值图。我们强制要求三层标注：

Layer 1（像素级变化掩膜）：标准的二值变化图；
Layer 2（变化类型编码）：每个变化像素赋予一个ID，对应预定义的变化类型（如1=机械磨损，2=液体泄漏，3=电气短路）；
Layer 3（置信度热力图）：由标注专家对每个变化区域打分（0~1），反映其视觉辨识难度。这个热力图，后续会作为损失函数的权重图，让模型更关注那些专家都觉得难标的模糊区域。

这套标注法，看似增加成本，但极大提升了模型的鲁棒性。在医疗内窥镜息肉复发监测中，Layer 3热力图帮助模型学会了区分“新生息肉”和“术后瘢痕组织”，后者在图像上都是粉红色隆起，但专家标注的置信度普遍低于0.3，模型因此被引导去学习更深层的纹理和血管模式特征。

3.2 模型训练：损失函数设计的“四两拨千斤”

变化检测的损失函数，是模型学习目标的“宪法”。一个糟糕的损失函数，会让模型学会走捷径——比如，专挑图像中最亮的区域预测变化（因为那里梯度大，loss下降快）。我们的“ChronoGate”模型，采用复合损失函数，各部分权重经大量实验验证：

# 总损失 = λ1 * L_change + λ2 * L_consistency + λ3 * L_explain + λ4 * L_regularization # 其中： # L_change: 变化掩膜的Dice Loss（优于交叉熵，对小目标更友好） # L_consistency: 物理一致性损失（如电压/电流通道变化图的互相关系数 > 0.85） # L_explain: 可解释性损失（Grad-CAM热力图与Layer 3置信度热力图的SSIM相似度） # L_regularization: 权重衰减 + 时序注意力权重α的L1正则（鼓励稀疏激活，提升聚焦性）

关键参数λ的设定逻辑：

λ1固定为1.0（基准）；
λ2根据业务约束强度调整：对电网、航空等强物理约束场景，设为0.8~1.2；对纯外观变化（如服装设计稿更新检测），设为0；
λ3至关重要，我们设为0.5。实测发现，若λ3过小（<0.2），模型忽略可解释性，热力图散乱；若过大（>0.7），模型过度拟合专家主观判断，泛化变差；
λ4设为1e-4，用于防止α图过于平滑（失去空间选择性）或过于稀疏（漏检）。

训练策略的魔鬼细节：

两阶段训练：第一阶段，冻结双流CNN主干，只训练时序注意力模块和分类头，用少量高质量数据（约200对）快速收敛，让模型先学会“看哪里”；第二阶段，解冻主干，用全量数据微调，让模型学会“怎么看”。这比端到端训练快3倍，且最终mIoU高2.3个百分点。
学习率预热与余弦退火：前10个epoch，学习率从0线性增长到峰值（1e-3），避免初始梯度爆炸；随后用余弦退火，最后10个epoch学习率衰减至1e-6。我们曾因跳过预热，在一个卫星影像项目中，前50个epoch的loss曲线像心电图一样剧烈震荡，模型根本无法稳定。
在线困难样本挖掘（OHEM）：不使用静态困难样本池，而是在每个batch内，动态选取loss最高的30%像素参与反向传播。这迫使模型持续攻坚最棘手的案例，如“薄雾中半遮挡的车辆”、“强反光金属表面的微小划痕”。

3.3 部署与推理：让模型在边缘设备上“喘匀气”

再好的模型，如果无法在目标设备上稳定运行，就是废铁。我们坚持“模型即产品”，部署阶段的优化，往往比训练更耗精力。

内存与显存的“外科手术式”精简：

特征图裁剪：在双流CNN的最后一个卷积层后，不保留全尺寸特征图，而是用自适应平均池化（AdaptiveAvgPool2d）将其压缩到16×16。实测表明，这对变化检测精度影响<0.5%，但显存占用减少68%。
时序注意力模块量化：该模块的权重和激活值，从FP32量化为INT8。关键技巧：不采用全局量化，而对每个注意力头单独校准。因为不同头关注的特征尺度差异巨大（有的聚焦边缘，有的聚焦纹理），统一校准会导致某些头精度崩塌。
推理流水线异步化：将图像预处理（归一化、resize）、模型推理、后处理（CRF优化、连通域分析）拆分为三个独立线程，用环形缓冲区（Ring Buffer）传递数据。这使单帧处理延迟从120ms降至65ms，CPU占用率从95%降至42%。

边缘设备的“生存指南”：
在为某油田井口监测设备（NVIDIA Jetson Xavier NX）部署时，我们遭遇了典型挑战：设备在-25℃~60℃宽温域运行，GPU频率会随温度动态降频。单纯优化模型不够，必须软硬协同：

温度感知推理调度：设备固件实时上报GPU温度，推理引擎据此动态调整batch size（温度>55℃时，batch size从4降为2）和推理频率（从30fps降为15fps），确保关键变化不漏检；
模型热备份：预载两个模型版本——一个高精度版（用于常温）、一个轻量版（用于高温）。当温度超过阈值，自动无缝切换，切换过程<50ms，业务无感；
本地缓存策略：将最近100帧的特征图缓存在高速NVMe SSD上。当检测到疑似变化时，不重新提取t1特征，而是直接从缓存读取，将“确认变化”的端到端延迟压缩至200ms以内——这刚好卡在油田安全规程要求的“异常响应<300ms”红线内。

这些细节，没有一篇论文会写，但它们决定了你的模型，是躺在服务器里当展品，还是真正扎根在产线、田野、电网里，日日夜夜为你站岗。

4. 实操过程与核心环节实现：手把手复现“ChronoGate”全流程

4.1 环境搭建与依赖安装：避开CUDA版本的“死亡之坑”

环境配置是第一个拦路虎。无数人卡在“ImportError: libcudnn.so.8: cannot open shared object file”，折腾三天。我们的实测推荐组合（2024年稳定版）：

# 硬件：NVIDIA RTX 3090 / A100 # 系统：Ubuntu 20.04 LTS # CUDA：11.3（注意！不是11.4或11.2，11.3是PyTorch 1.10.2的官方认证版本） # cuDNN：8.2.1（必须与CUDA 11.3严格匹配） # PyTorch：1.10.2+cu113（用pip安装，不要conda，conda的cudnn链接常出问题） pip3 install torch==1.10.2+cu113 torchvision==0.11.3+cu113 torchaudio==0.10.2+cu113 -f https://download.pytorch.org/whl/torch_stable.html pip3 install opencv-python==4.5.5.64 # 避免4.6+的ABI不兼容 pip3 install scikit-image==0.19.2 # 图像处理核心库 pip3 install albumentations==1.1.0 # 数据增强，比torchvision更专业

提示：安装完务必验证CUDA可用性：
import torch print(torch.__version__) # 应输出 1.10.2+cu113 print(torch.cuda.is_available()) # 必须为True print(torch.backends.cudnn.version()) # 应输出8201（即8.2.1）
若cudnn.version()报错或为0，说明cuDNN未正确链接，需手动设置LD_LIBRARY_PATH：
export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64:$LD_LIBRARY_PATH

4.2 数据准备实操：从原始影像到标准数据集

以遥感影像变化检测为例，演示完整流程。假设你有两期Sentinel-2 Level-2A数据（t1.tif, t2.tif），目标是检测城市建成区扩张。

步骤1：辐射定标与大气校正（使用sen2cor）

# 下载并安装sen2cor 2.11（适配Sentinel-2 L2A） # 命令行执行（耗时约15分钟/景）： L2A_Process --resolution 10 --output_dir ./L2A_output ./L1C_input/S2A_MSIL1C_20200101T020341_N0208_R005_T49RGP_20200101T030341.SAFE

注意：sen2cor输出的BOA（Bottom of Atmosphere）反射率图，数值范围是0~10000（uint16），需除以10000转为0~1浮点数，再输入模型。

步骤2：毫米级配准（使用GDAL + 自研脚本）

# 1. 用GDAL粗配准（基于RPC模型） gdalwarp -rpc -to "RPC_HEIGHT=0" -tr 10 10 -r cubic t1_BOA.tif t1_geo.tif gdalwarp -rpc -to "RPC_HEIGHT=0" -tr 10 10 -r cubic t2_BOA.tif t2_geo.tif # 2. 自研精配准脚本（phase_corr_refine.py） python phase_corr_refine.py --t1 t1_geo.tif --t2 t2_geo.tif --output_dir ./aligned/ # 输出：t1_aligned.tif, t2_aligned.tif, 亚像素配准残差图（用于质检）

步骤3：生成三层标签（使用QGIS + Python脚本）

在QGIS中，加载配准后的t1_aligned.tif，用数字化工具勾勒所有真实变化区域（如新建楼盘、道路）；
导出为GeoJSON；
运行脚本geojson_to_labels.py，自动生成三层标签：
```
python geojson_to_labels.py --geojson changes.geojson \ --t1 t1_aligned.tif \ --t2 t2_aligned.tif \ --output_dir ./labels/ \ --confidence_map ./expert_confidence.tif # 专家提供的置信度图
```
脚本输出：change_mask.png（Layer 1）、change_type.png（Layer 2，PNG8格式，调色板映射类型ID）、confidence_map.png（Layer 3）。

步骤4：构建PyTorch Dataset

class ChangeDetectionDataset(Dataset): def __init__(self, image_dir, label_dir, transform=None): self.image_pairs = [] self.label_paths = [] # 遍历目录，匹配t1/t2图像对和对应标签 for t1_path in sorted(glob(f"{image_dir}/t1_*.tif")): t2_path = t1_path.replace("t1_", "t2_") mask_path = t1_path.replace("t1_", "mask_").replace(".tif", ".png") if os.path.exists(t2_path) and os.path.exists(mask_path): self.image_pairs.append((t1_path, t2_path)) self.label_paths.append(mask_path) self.transform = transform def __getitem__(self, idx): t1_path, t2_path = self.image_pairs[idx] mask_path = self.label_paths[idx] # 读取图像（Sentinel-2有13个波段，我们选B02,B03,B04,B08,B11,B12） t1_img = rasterio.open(t1_path).read([2,3,4,8,11,12]) # B02,B03,B04,B08,B11,B12 t2_img = rasterio.open(t2_path).read([2,3,4,8,11,12]) # 归一化到[0,1]，并转为CHW格式 t1_img = (t1_img.astype(np.float32) / 10000.0).transpose(1,2,0) t2_img = (t2_img.astype(np.float32) / 10000.0).transpose(1,2,0) mask = cv2.imread(mask_path, cv2.IMREAD_UNCHANGED) # Layer 1 type_mask = cv2.imread(mask_path.replace("mask_", "type_"), cv2.IMREAD_UNCHANGED) # Layer 2 conf_map = cv2.imread(mask_path.replace("mask_", "conf_"), cv2.IMREAD_UNCHANGED) # Layer 3 if self.transform: # Albumentations支持多图同步增强 augmented = self.transform(image=t1_img, image1=t2_img, mask=mask, mask1=type_mask, mask2=conf_map) t1_img, t2_img = augmented['image'], augmented['image1'] mask, type_mask, conf_map = augmented['mask'], augmented['mask1'], augmented['mask2'] return t1_img, t2_img, mask, type_mask, conf_map # 数据增强（针对遥感影像定制） train_transform = A.Compose([ A.RandomRotate90(p=0.5), A.HorizontalFlip(p=0.5), A.VerticalFlip(p=0.5), A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5), A.OneOf([ A.MotionBlur(p=0.2), A.MedianBlur(blur_limit=3, p=0.1), A.Blur(blur_limit=3, p=0.1), ], p=0.2), ], additional_targets={'image1': 'image', 'mask1': 'mask', 'mask2': 'mask'})

4.3 “ChronoGate”模型核心代码实现

import torch import torch.nn as nn import torch.nn.functional as F from torchvision import models class DualStreamCNN(nn.Module): def __init__(self, backbone_name='resnet34'): super().__init__() # 加载预训练ResNet34，移除最后的FC层 backbone = getattr(models, backbone_name)(pretrained=True) self.backbone = nn.Sequential(*list(backbone.children())[:-2]) # 输出C=512, H/32, W/32 def forward(self, x): # x: [B, C, H, W] return self.backbone(x) class TemporalAttentionFusion(nn.Module): def __init__(self, in_channels=512): super().__init__() # 1x1卷积降维，减少计算量 self.conv_reduce = nn.Conv2d(in_channels * 2, in_channels, kernel_size=1) # 生成注意力权重图α self.attention_head = nn.Sequential( nn.Conv2d(in_channels, 64, kernel_size=3, padding=1), nn.ReLU(), nn.Conv2d(64, 1, kernel_size=1), nn.Sigmoid() # α ∈ [0,1] ) def forward(self, f1, f2): # f1, f2: [B, C, H, W] cat_feat = torch.cat([f1, f2], dim=1) # [B, 2C, H, W] reduced = self.conv_reduce(cat_feat) # [B, C, H, W] alpha = self.attention_head(reduced) # [B, 1, H, W] fused = alpha * f2 + (1 - alpha) * f1 # [B, C, H, W] return fused, alpha class ChronoGate(nn.Module): def __init__(self, num_classes=2): # 2: unchanged/changed super().__init__() self.stream_t1 = DualStreamCNN() self.stream_t2 = DualStreamCNN() # 权重共享，实际中用同一个实例 self.fusion = TemporalAttentionFusion() self.classifier = nn.Sequential( nn.Conv2d(512, 256, kernel_size=3, padding=1), nn.ReLU(), nn.Conv2d(256, num_classes, kernel_size=1) ) # 可解释性门控头 self.gating_head = nn.Sequential( nn.AdaptiveAvgPool2d((1,1)), nn.Flatten(), nn.Linear(512, 128), nn.ReLU(), nn.Linear(128, 2), # [confidence_score, change_type_prob] nn.Sigmoid() ) def forward(self, t1_img, t2_img): # 提取特征 f1 = self.stream_t1(t1_img) # [B, 512, H/32, W/32] f2 = self.stream_t2(t2_img) # [B, 512, H/32, W/32] # 时序注意力融合 fused_feat, alpha_map = self.fusion(f1, f2) # [B, 512, H/32, W/32], [B, 1, H/32, W/32] # 分类预测 change_pred = self.classifier(fused_feat) # [B, 2, H/32, W/32] # 门控头预测 gating_pred = self.gating_head(fused_feat) # [B, 2] return change_pred, alpha_map, gating_pred # 损失函数实现 class ChronoGateLoss(nn.Module): def __init__(self, lambda1=1.0, lambda2=0.0, lambda3=0.5, lambda4=1e-4): super().__init__() self.lambda1 = lambda1 self.lambda2 = lambda2 self.lambda3 = lambda3 self.lambda4 = lambda4 self.dice_loss = DiceLoss() self.l1_loss = nn.L1Loss() def forward(self, pred_change, pred_alpha, pred_gating, target_change, target_type, target_conf, t1_img, t2_img): # L_change: Dice Loss on change mask loss_change = self.dice_loss(pred_change, target_change) # L_consistency: 物理一致性（此处以电压/电流为例，遥感中可省略） # loss_consistency = self.l1_loss(voltage_change, current_change) # L_explain: Grad-CAM与专家置信度图的SSIM # （需结合torchcam库实现，此处略） loss_explain = 0.0 #

查看全文

http://www.jsqmd.com/news/867172/