当前位置：首页 > news >正文

因果瓦片归因：视觉模型的结构化与忠实解释

news 2026/3/26 21:35:16

摘要

深度视觉模型的事后解释通常是在像素级别生成的，尽管现代架构和推理流程越来越多地基于诸如块、窗口和瓦片（tiles）这样的结构化单元进行操作。这种解释单元与计算单元之间的错位，常常导致生成的解释充满噪声、脆弱，并且在高风险场景下难以审查。我们提出了因果瓦片归因（Causal Tile Attribution, CTA），这是一个事后解释框架，它将瓦片视为因果解释单元，并通过结构化的局部干预来量化它们的影响。CTA 用区域级的因果效应估计取代了密集的像素级归因，从而生成稀疏、结构化且自然与反事实分析兼容的解释。我们针对分类和分割模型都实现了 CTA，并在多个视觉任务上对其进行了评估，其中医学影像作为一个要求严苛的高风险测试平台。我们的实验方案针对忠实度、稳定性、定位能力和可审查性。跨任务和架构的实验表明，CTA 的设计旨在更好地使解释与模型结构对齐，并提供比传统显著性图更易于审查的证据集。这些发现支持一个更广泛的原则：当解释单元与结构化计算对齐时，解释质量可以得到显著提高。

1. 引言

事后可解释性仍然是现代机器学习领域的核心挑战之一。尽管深度视觉模型在分类、检测和分割任务上表现出色，但其预测所附带的解释往往难以令人信任或付诸实践。目前，主流范式仍然是像素级归因：显著性图、基于梯度的方法、类别激活图及相关变体，都试图将重要性分配给单个像素或密集的图像区域。虽然这些方法易于计算且在视觉上直观，但它们生成的解释往往是碎片化的、不稳定的，并且与模型的实际计算结构关联松散。

随着视觉模型的发展，这种脱节问题变得更加突出。当代架构越来越多地通过结构化单元（如块、窗口和区块）来处理输入。视觉 Transformer 将图像令牌化为块；分层模型聚合局部窗口；高效的推理系统围绕块执行进行设计。然而，事后解释通常仍定义在像素上。因此，用于预测的单元和用于解释的单元之间存在表征不匹配问题。

我们认为，这种不匹配不仅仅是美学上的。它对解释的忠实度、鲁棒性和可用性都有实际影响。像素级热图通常对小扰动敏感，难以阈值为可操作的证据，并且在需要人工审查的场景中难以审计。这些问题在高风险领域尤为尖锐，例如医学影像，用户可能需要询问的不仅仅是“模型在看哪里”，还有“哪些具体区域因果地驱动了预测”以及“如果这些区域被改变，预测会如何变化”。

在本文中，我们提出了因果瓦片归因（CTA），一个结构化的事后解释框架，它将瓦片视为因果解释单元。CTA 不是将相关性归因于像素级，而是将输入划分为局部瓦片，并通过显式干预来估计每个瓦片对模型输出的影响。由此产生的解释是区域级别的、稀疏的，并且与反事实推理兼容。CTA 是模型无关的，适用于分类和分割任务，并且自然地与现代视觉系统的结构化计算保持一致。

我们的工作源于一个简单但意义深远的原则：解释应该定义在更能反映模型如何表征和处理信息的单元上。医学影像提供了一个严格的评估环境，因为它结合了高风险、对定位能力的强烈需求以及对可审查证据的需要。然而，该方法本身并非特定于医学；相反，医学任务作为结构化解释的一个有用测试平台。

我们做出以下贡献：

我们为视觉模型的事后可解释性提出了将瓦片作为因果解释单元的构想。
我们引入了因果瓦片归因（CTA），一个基于结构化干预的框架，用于估计瓦片级别的模型输出影响。
我们定义了一个评估方案，涵盖忠实度、稳定性、定位能力、稀疏性和可审查性，强调与高风险部署相关的属性。
我们展示了 CTA 如何一致地应用于分类和分割任务，以及具有不同表征偏差的模型家族。

更广泛地说，我们将 CTA 定位为迈向更原则化可解释性观点的一步：用结构化的因果证据集取代密集、弱结构的归因图。

2. 相关工作

2.1 基于归因的解释

大量文献通过基于梯度或基于激活的归因方法（包括显著性图、积分梯度、Grad-CAM 及相关方法）来解释深度视觉模型。这些方法因其简单、与模型兼容且乍看之下视觉上可解释而被广泛使用。然而，它们通常生成密集的像素空间图，这些图可能是嘈杂的，在小扰动下不稳定，并且难以转换为离散的证据单元以供下游审查。

2.2 基于扰动和干预的解释

基于扰动的方法通过修改输入的部分内容并观察预测的变化来估计重要性。这类方法在精神上更接近反事实推理，因为它将“当局部区域被改变或移除时会发生什么”这个问题操作化。我们的工作遵循这种基于干预的视角，但在一个关键方面有所不同：我们不是对任意掩码或细粒度像素定义干预，而是对结构化瓦片定义干预，这提供了更连贯的解释粒度。

2.3 视觉模型中的结构化表征

现代视觉架构日益依赖结构化的局部单元。Transformer 中的块嵌入、窗口注意力、分层令牌聚合以及基于块的推理都表明，视觉计算已不再适合用孤立像素的层面来描述。尽管如此，大多数解释方法仍在像素空间中操作。CTA 的动机源于一个观察：结构化表征需要结构化的解释。

2.4 高风险视觉应用中的可解释性

在高风险领域，解释质量不能仅凭视觉合理性来判断。解释还必须忠实、稳定，并且有足够的结构以供人工审查。医学影像是一个特别相关的场景，因为决策过程通常依赖于局部异常，并且用户可能需要跨病例检查和比较证据区域。我们使用这个场景来压力测试结构化的因果解释是否能提供实用价值。

3. 问题设定

设X∈RH×W×CX \in \mathbb{R}^{H \times W \times C}X∈RH×W×C表示输入图像，fff表示一个训练好的视觉模型。根据任务的不同，模型输出Y=f(X)可以是类别分数、类别概率或结构化输出（如分割掩码）。

我们将XXX划分为一组局部瓦片：
T={ t1,t2,…,tN},T = \{t_1, t_2, \dots, t_N\},T={t1,t2,…,tN},
其中每个瓦片对应图像中一个空间上连续的区域。解释的目标是为每个瓦片分配一个分数，以反映该瓦片对目标预测的影响程度。

与纯粹的相关性归因不同，我们寻求一个基于干预的分数。对于每个瓦片tit_iti，我们构造一个干预后的图像X(i←t~i)X^{(i \leftarrow \tilde{t}_i)}X(i←t~i)，其中瓦片tit_iti的内容被替换为一个参考瓦片t~i\tilde{t}_it~i或一个被中和的局部模式。然后我们测量在此干预下模型输出的变化。