当前位置：首页 > news >正文

量子机器学习可解释性：基于多线性形式的SHAP值计算理论与应用

news 2026/5/24 3:13:21

1. 量子机器学习可解释性：为什么我们需要SHAP值？

在机器学习领域，尤其是在金融风控、医疗影像分析或者自动驾驶决策中，模型的可解释性已经从一个“加分项”变成了一个“必需品”。我们不再满足于一个黑箱模型给出一个高精度的预测结果，我们更想知道它“为什么”会做出这样的判断。比如，一个量子机器学习模型识别出了一张医学图像中的异常区域，医生需要知道是图像的哪些像素特征（或者说，量子比特的哪些测量结果）主导了这个判断，才能建立信任并采取行动。这就是特征归因（Feature Attribution）要解决的问题。

SHAP（Shapley Additive exPlanations）值是目前最受推崇的特征归因方法之一。它的理论基础非常扎实，直接来源于博弈论中的沙普利值（Shapley Value）。想象一下，一个机器学习模型的预测就像一场团队游戏的总收益，每个输入特征都是参与游戏的“玩家”。SHAP值要做的，就是公平地分配总收益（预测值）给每个玩家（特征），其分配规则是：计算某个特征加入所有可能的“盟友”（其他特征的子集）时，所带来的边际贡献的平均值。这种方法保证了公平性（贡献大的多得）、一致性（如果模型改变使得某个特征在所有情况下的贡献都增加，那么它的SHAP值也增加）等优良性质。

然而，当我们将目光投向量子机器学习（QML）时，情况变得复杂而有趣。量子模型，比如参数化量子电路（Parameterized Quantum Circuit, PQC），其本质是一个将经典数据编码到量子态，再通过酉变换和测量得到预测结果的复杂函数。这个函数通常是高度非线性的，并且其内部表示是量子态的振幅或测量期望值。传统的SHAP值计算方法，无论是基于采样的近似还是针对特定模型（如树模型）的优化，都难以直接套用到这个量子黑箱上。更关键的是，量子模型的输入特征与输出之间，往往通过多线性映射（Multilinear Map）或张量积（Tensor Product）等结构相联系，这要求我们发展一套新的数学语言和计算框架。

因此，本文的核心就是拆解这个难题：如何为量子机器学习模型，特别是那些能够被表达为对称多线性形式的模型，构建一套高效、精确的SHAP值计算理论？我们将从最基础的二次型模型出发，逐步深入到更一般的r阶多线性形式，并展示如何利用对称性和张量代数，将看似组合爆炸的计算，化简为优雅的解析表达式。这对于我们理解量子电路如何“思考”，以及设计更可解释的量子算法，至关重要。

2. 从经典到量子：SHAP值基础与多线性形式框架

2.1 SHAP值的经典定义与计算挑战

给定一个模型函数f(x)，其中x = [x1, x2, ..., xn]是一个n维特征向量，以及一个基线向量b（通常代表特征的“缺失”状态，如平均值、零值或训练数据均值）。对于第e个特征，其SHAP值Sh(e)的经典定义如下：

Sh(e) = Σ_{S ⊆ [n] \ {e}} [ |S|! (n - |S| - 1)! / n! ] * [ f(x_S ∪ {e}) - f(x_S) ]

这里，[n]代表所有特征的索引集合{1,2,...,n}。S是不包含特征e的任意子集。x_S表示一个向量，其中属于子集S的特征取其在样本x中的值，而不在S中的特征则取基线b中的值。x_S ∪ {e}则是在此基础上，让特征e也取样本x中的值。

这个公式直观地体现了“平均边际贡献”的思想。系数|S|! (n - |S| - 1)! / n!是权重，用于公平对待不同大小的联盟S。直接计算这个公式需要对所有2^(n-1)个子集S进行评估，这在特征数量n较大时是完全不可行的。对于经典模型，如线性模型、树模型，存在利用模型结构特性的高效算法。但对于一个一般的量子模型，我们缺乏这样的结构先验知识。

2.2 量子模型作为多线性形式

许多量子机器学习模型，特别是那些使用变分量子电路（VQC）进行监督学习的模型，其预测函数可以表达为一种特殊形式。考虑一个将经典数据向量x映射到实数预测值f(x)的量子电路。经过推导（通常涉及将数据编码为量子态的角度参数，以及将可观测量的期望值表达为参数的多项式函数），f(x)常常可以写成关于x的一个对称多线性形式（Symmetric Multilinear Form）。

什么是r阶对称多线性形式？简单说，它是一个接收r个向量v1, v2, ..., vr作为输入，输出一个标量的函数Λ(v1, v2, ..., vr)，并且这个函数对每一个输入变量都是线性的（即固定其他变量，它是单个变量的线性函数），同时交换任意两个输入向量的位置，输出结果不变（对称性）。一个最熟悉的例子就是当r=2时，对称双线性形式对应一个二次型：f(x) = x^T C x，其中C是对称矩阵。

在量子模型中，我们经常处理的是齐次的多线性形式，即所有输入向量都是同一个向量x：f(x) = Λ(x, x, ..., x)。这可以看作是一个高阶多项式。通过引入“秩-1分解”（Rank-1 Decomposition），我们可以将这个复杂的多线性形式拆解为一系列简单项的加权和，这将极大简化后续计算。

定义（秩-1分解）：对于一个r阶对称多线性形式Λ: V^r → R，如果存在一组向量{v_i ∈ V}和标量系数{λ_i ∈ R}，使得对于任意输入向量a1, a2, ..., ar，都有：Λ(a1, a2, ..., ar) = Σ_{i=1}^{p} λ_i * Π_{j=1}^{r} 〈v_i, a_j〉其中〈·,·〉表示向量内积。那么我们就说Λ有一个秩为p的分解。最小的p被称为Λ的（广义）秩。

这个分解的威力在于，它将一个复杂的多变量函数评估，转化为了多个简单的内积运算的乘积之和。在量子语境下，v_i可以关联到量子电路中的特定参数化路径或测量基，λ_i则对应相关的振幅或系数。

2.3 核心数学工具：张量积与对称积

为了紧凑地表示和操作多线性形式，我们需要引入张量（Tensor）的语言。

张量积（⊗）：对于向量x，x⊗l表示x与自身的l次张量积，结果是一个l阶张量。它的分量是x各分量的所有l重乘积。例如，(x⊗2)_{jk} = x_j * x_k。
对称积（∨）与多索引：在处理对称形式时，我们更常用对称化的表示。对于一个n维向量x，它的r次对称积x∨r是一个对称的r阶张量。我们用多索引β = (β1, β2, ..., βn)来表示它，其中βj是非负整数，且所有βj之和等于r（|β| = r）。βj可以理解为变量x_j在单项式中出现的次数。那么：(x∨r)_β = [r! / (β1! β2! ... βn!)] * (x1^{β1} x2^{β2} ... xn^{βn})这个系数是多项式系数，来自于对称化过程。
缩并运算（⊙）：这是我们将多线性形式Λ（也是一个r阶张量）与输入张量进行“合约”以得到标量输出的运算。对于秩-1分解后的形式，Λ ⊙ (x⊗r)等价于计算Σ_i λ_i 〈v_i, x〉^r。

有了这些工具，我们可以将量子模型的预测函数优雅地写为：f(x) = Λ ⊙ (x⊗r)，其中Λ是一个封装了所有模型参数（量子门参数、测量权重）的对称r阶张量。我们的目标，就是在这个框架下，高效计算f(x)关于每个特征x_e的SHAP值。

3. 二次型案例：为量子线性模型建立直觉

在深入一般形式前，让我们先彻底解决r=2的情况，即模型为二次型：f(x) = x^T C x，其中C是(n+1)×(n+1)的对称矩阵。这里我们故意将维度设为n+1是为了后续与一般情况记号统一，你可以把第n+1维想象为一个常数项偏置。

我们的输入是样本x和基线b。定义两个关键向量：

均值向量：M = (x + b) / 2
差值向量：Δ = x - b。显然，x = M + Δ/2，b = M - Δ/2。

对于特征e，SHAP值的计算涉及对所有不含e的特征子集S求和。在二次型情况下，我们需要计算形如f(x_S ∪ {e}) - f(x_S)的差。经过展开和巧妙的代数重组（详细推导见附录思路，核心是利用了C的对称性a^T C b = b^T C a），这个差值可以转化为一个更简洁的形式。

最终，我们得到一个令人惊奇的简化结果：

命题（二次型SHAP值）：Sh(e) = 2 * (M^T C Δ_e)其中Δ_e是一个向量，它在第e个位置上的值为Δ_e（即x_e - b_e），在其他所有位置上的值为0。

推导要点与直觉：
将f(x_S ∪ {e})和f(x_S)分别用M和Δ表示。
相减后，交叉项M^T C Δ_S和Δ_S^T C M会因对称性而合并，其中Δ_S是Δ在子集S上的限制（非S位置为零）。
关键的一步是，在对所有子集S求和时，涉及Δ_S的项会成对出现并相互抵消。这是因为对于每一个子集S，都存在它的补集\bar{S}（相对于全集去掉e），而Δ_S和Δ_{\bar{S}}的符号是相反的（Δ_S + Δ_{\bar{S}} = Δ - Δ_e，但求和权重相同，符号相反导致抵消）。
最后，只剩下与Δ_e直接相关的项，并且所有权重之和为1，从而得到极其简洁的公式。

这个结果的深远意义：

计算复杂度从指数级降到线性级：我们不再需要遍历2^(n-1)个子集，只需要计算一次矩阵-向量乘法C Δ_e（复杂度 O(n^2)），再与M做一次内积（O(n)）。对于稀疏矩阵C，复杂度还能进一步降低。
清晰的几何解释：SHAP值Sh(e)正比于均值向量M在由矩阵C定义的度量下，与特征e的变化方向Δ_e的“对齐”程度。C可以看作是特征间相互作用的权重矩阵。
为量子模型铺路：许多简单的量子分类器，例如使用位移编码（Displacement Encoding）或瞬时量子多项式（IQP）电路，其期望值可以精确地表达为输入数据的二次型。因此，这个结论可以直接应用于这类量子模型，为它们提供瞬时、精确的特征归因。

4. 通向一般形式：对称多线性形式下的SHAP值

现在，我们将目光投向更一般的r阶对称多线性形式f(x) = Λ ⊙ (x⊗r)。这是我们处理复杂量子电路模型的关键。我们的目标同样是简化Sh(e)的计算。

4.1 问题重述与核心策略

将x和b的表达式(M ± Δ/2)代入f(x)。对于任意子集S，向量x_S（特征在S中取x值，其余取b值）可以表示为：x_S = M + (Δ_S - Δ_{\bar{S}})/2其中Δ_S是Δ在集合S上的投影（其余位置为零），\bar{S}是S关于[n]\{e}的补集。

因此，SHAP值公式中的每一项变为：f(x_S ∪ {e}) - f(x_S) = Λ ⊙ [ (A)⊗r - (A')⊗r ]其中A = M + Δ_e/2 + (Δ_S - Δ_{\bar{S}})/2，A' = M - Δ_e/2 + (Δ_S - Δ_{\bar{S}})/2。

我们的核心策略是利用多线性和对称性，将(A)⊗r和(A')⊗r按M、Δ_e/2和(Δ_S - Δ_{\bar{S}})/2这三个部分进行展开。这类似于一个多变量的多项式展开。

4.2 利用对称性与组合抵消

展开后，我们会得到一系列形如Λ ⊙ (M⊗a ⊗ (Δ_e/2)⊗b ⊗ ((Δ_S - Δ_{\bar{S}})/2)⊗c)的项，其中a+b+c = r。每一项都带有一个多项式系数(r!)/(a! b! c!)。

接下来是对所有子集S求和。这里出现了和二次型情况类似但更复杂的“抵消现象”。关键在于项((Δ_S - Δ_{\bar{S}})/2)⊗c。这是一个c阶张量。当我们对S求和时，这个张量的每个分量都是一个关于S的和。

关键的观察是：对于((Δ_S - Δ_{\bar{S}})/2)⊗c的任何一个特定的分量（由c个特征索引决定），如果这c个索引中，有奇数个属于子集S，那么该项在求和时会带有一个负号；如果有偶数个，则是正号。由于S和它的补集\bar{S}在求和中被对称地遍历（权重相同），所有包含奇数个属于S的索引的项，都会和其对应的“互补”项（符号相反）相互抵消。

严格的数学证明（如附录所示）表明，只有当指数c是偶数时，对S的求和才可能非零。并且，求和结果会产生一个与c有关的规整化因子1/(c+1)（在更一般的推导中，与“奇数索引”的个数l有关，因子为1/(2l+1)）。

4.3 最终的一般公式

经过一系列精妙的组合数学和离散微积分运算（涉及差分算子和多项式求和），所有的抵消和求和最终导向一个非常结构化的结果。对于具有秩-1分解Λ = Σ_i λ_i * v_i⊗r的对称r阶多线性形式，特征e的SHAP值可以表示为：

Sh(e) = 2 * Σ_{i=1}^{p} λ_i * Σ_{a+b+c=r} [ (r!)/(a! b! c!) * T(a, b, c) * 〈v_i, M〉^a * 〈v_i, Δ_e/2〉^b * Π_{h=1}^{n} (v_{i,h} * α_h)^{γ_h} ]

让我们来解析这个公式：

外层求和 Σ_i：遍历秩-1分解的每一项。
中层求和 Σ_{a+b+c=r}：遍历将总阶数r分配给三部分M、Δ_e和剩余部分α的所有可能方式。a, b, c是非负整数。
系数 (r!)/(a! b! c!)：多项式展开系数。
因子 T(a, b, c)：这是一个由抵消求和产生的规整化因子。推导表明，只有当b是奇数且c是偶数时，T(a,b,c)才非零。其具体形式为1/(c+1)乘以一些与组合计数相关的常数。这一筛选条件具有深刻的物理意义：它意味着只有特征e的贡献（b）是“非对称的”（奇数阶），而其他特征间的相互作用（c）是“对称的”（偶数阶）时，该特征才对SHAP值有净贡献。
内积项：
- 〈v_i, M〉^a：模型分量v_i与均值向量M的对齐程度，贡献a次。
- 〈v_i, Δ_e/2〉^b：模型分量v_i与特征e的变化方向Δ_e的对齐程度，贡献b次。由于b为奇数，它决定了Sh(e)的符号（正贡献或负贡献）。
乘积项 Π_{h} (v_{i,h} * α_h)^{γ_h}：这部分处理了除了特征e之外的其他所有特征h。γ_h是一个多索引，满足Σ_h γ_h = c，表示在c阶的相互作用中，特征h出现的次数。α_h是Δ_h/2。这一项捕获了特征e通过模型分量v_i与其他所有特征发生的复杂交互效应。

这个公式的价值在于：

将指数求和化为多项式计算：它成功地将对2^(n-1)个子集的指数求和，转化为了对有限个(a,b,c)组合以及模型秩p的求和。计算复杂度主要取决于模型的秩p和阶数r，而不再是特征数量n的指数函数。
明确了交互作用的角色：公式清晰地分离了特征e的独立贡献（b项）、与其他特征的共同背景（a项）以及高阶交互作用（c项）。这为解释提供了清晰的路径。
为量子计算量身定制：如果我们的量子模型能够被有效地分解为秩-1形式（例如，通过量子张量网络方法或特定的电路结构），那么计算SHAP值就转化为在经典端计算一系列内积和乘积。甚至，内积〈v_i, x〉本身可以通过量子线路快速估计，为量子-经典混合计算SHAP值开辟了道路。

5. 量子电路实例：Bars and Stripes图像学习

理论需要实践的检验。让我们看一个具体的量子机器学习例子：使用参数化量子电路学习“Bars and Stripes”（BAS）图像模式。

5.1 问题设定与量子编码

BAS是一个经典的玩具数据集，用于测试机器学习模型的表达能力。对于一个2x2的二进制图像（4个像素），“Bars”模式指某一整行或整列像素全为1；“Stripes”模式指图像由交替的行或列条纹构成。总共有6个有效的BAS模式。

我们的任务是用一个量子电路来学习区分这些模式。我们将每个像素x_j（值为0或1）编码到一个量子比特的量子态中。一种常见的编码方式是角度编码（Angle Encoding）：|ψ(x_j)〉 = RY(π * x_j) |0〉即，如果像素为0，量子态保持在|0〉；如果像素为1，则通过RY(π)门旋转到|1〉。对于4像素图像，我们使用4个量子比特，初始态为|0〉^⊗4，编码后得到|ψ(x)〉 = ⊗_{j=1}^{4} RY(π * x_j) |0〉。

5.2 变分量子电路设计

编码之后，我们施加一个参数化的量子电路（变分ansatz）。图7展示了一种可能的4量子比特电路结构。它通常包含以下几层：

初始旋转层：对每个量子比特应用RX(φ_j)和RY(θ_j)门。φ_j是固定的编码角度（与x_j相关或设为可训练参数），θ_j是可训练参数。
纠缠层：使用受控非门（CNOT）或受控旋转门，在量子比特之间创建纠缠，使电路能够表达特征间的复杂交互。图7中的结构可能采用了特定的纠缠模式（如线性链或环状）。
后续旋转层：在纠缠层之后，再加入几层单量子比特旋转门（如RY，RX），参数为θ_8到θ_15，以增加表达能力。
测量：最后，在所有量子比特上沿Z轴测量，得到期望值〈Z⊗Z⊗...⊗Z〉，或者更一般地，测量一个可观测量的期望值O。这个期望值经过一个经典的后处理函数（如缩放和偏置）后，作为模型的预测输出f(x)。

5.3 从量子期望值到多线性形式

对于一个参数化量子电路，其测量期望值f(x) = 〈ψ(x)| U^†(θ) O U(θ) |ψ(x)〉是编码参数（即输入x）的函数。通过将量子门运算展开，特别是当编码和变分部分都包含单量子比特旋转时，这个期望值可以被证明是关于sin(πx_j/2)和cos(πx_j/2)的多项式函数。利用三角恒等式，它可以进一步转化为关于x_j本身的多项式。

对于2x2BAS问题，以及图7所示的特定电路结构，理论分析表明，该电路的表达能力足以让f(x)拟合所有6个BAS模式。更重要的是，这个多项式函数可以被精确地写成一个关于x的4阶对称多线性形式（r=4）。这是因为我们有4个输入特征（像素），而电路深度和纠缠结构允许最高4阶的交互。

5.4 计算该量子模型的SHAP值

一旦我们确认模型的预测函数f(x)是一个4阶对称多线性形式Λ ⊙ (x⊗4)，并且通过训练或分析找到了其具体的张量表示Λ（或其秩-1分解），我们就可以直接应用第4节推导出的一般公式。

实操步骤：

模型训练与张量提取：在BAS数据集上训练图7的量子电路，直到收敛。通过自动微分或参数移位规则，我们可以分析性地得到f(x)关于输入x的Hessian矩阵（对于高阶，是高阶导数），从而重构出对称多线性形式Λ的系数。或者，如果电路较简单，可以直接通过符号计算得到Λ。
进行秩-1分解：对得到的4阶对称张量Λ进行近似或精确的秩-1分解（例如使用CP分解），得到一组向量{v_i}和标量{λ_i}。分解的秩p反映了模型内在的复杂度。
设定基线：为BAS问题选择一个合理的基线b。由于像素是二进制的，一个自然的选择是b = [0.5, 0.5, 0.5, 0.5]，代表“未知”或“平均”灰度。
代入公式计算：对于一张具体的BAS测试图像x（例如一个竖条图案[1, 0, 1, 0]），计算M = (x+b)/2和Δ = x - b。然后，对于每个像素e（e=1,2,3,4），利用第4节的公式计算Sh(e)。由于r=4，我们需要遍历所有满足a+b+c=4，且b为奇数、c为偶数的(a,b,c)组合。计算涉及的内积和乘积都是标量运算，非常高效。
结果解释：计算出的四个Sh(e)值，分别代表四个像素对模型判断该图像为某个特定BAS模式的贡献度。正值表示该像素的存在（或为1）支持该判断，负值则表示反对。我们可以直观地看到，对于“竖条”图案，第一列的两个像素（e=1,3）应有很高的正SHAP值，而第二列的两个像素（e=2,4）应有负的SHAP值，这与人类直觉一致。

通过这个例子，我们展示了如何将抽象的多线性形式SHAP理论，应用于一个具体的、有明确物理实现的量子机器学习模型，从而打开量子模型决策过程的黑箱。

6. 实现考量、挑战与未来方向

6.1 计算效率与可行性分析

理论的美妙需要落地的支撑。我们总结一下该方法的计算瓶颈和优势：

优势：
1. 避免指数级采样：最大的优势是彻底避免了传统SHAP算法中需要对2^(n-1)个特征子集进行模型评估的噩梦。这对于特征数n较大的量子模型是决定性的。
2. 利用模型结构：我们的方法深度依赖模型可以被表示为对称多线性形式这一特性。对于符合这一结构的量子模型（许多变分量子算法属于此类），计算是精确且高效的。
3. 分解是关键：如果对称张量Λ的秩p较低，那么最终计算公式的求和项数就很少，计算速度极快。许多实际问题中，有效的交互阶数不会太高，Λ可能是低秩或近似低秩的。
挑战与瓶颈：
1. 获取多线性形式：对于复杂的量子电路，从参数化的酉矩阵和测量算子中解析地推导出f(x)关于x的精确多项式形式，可能非常困难。一种实用的方法是自动微分。通过量子框架（如PennyLane、Qiskit）的自动微分功能，我们可以计算f(x)在某个参考点（如基线b）处关于x的所有高阶偏导数。这些偏导数直接给出了对称多线性形式Λ的系数。对于n个特征r阶形式，需要计算O(n^r)个导数，当n和r较大时，这本身计算量很大，但仍是多项式时间，优于指数。
2. 张量分解的计算：对高阶张量Λ进行秩-1分解（CP分解）是一个经典的数值计算问题，对于大型张量可能是计算密集型的。需要采用迭代优化算法（如交替最小二乘法ALS）。
3. 公式中的求和项：即使有了分解，最终公式中需要对(a,b,c)组合求和。组合数量是O(r^2)级别的。对于r=10的中等阶数，这大约是几十项，可以接受。但对于r=50的高阶模型，项数会达到几百，计算量增大。

6.2 与经典SHAP方法的对比

特性	经典SHAP (KernelSHAP/树SHAP)	本文方法 (针对多线性形式)
模型假设	通用黑箱模型	必须能表达为对称多线性形式
计算复杂度	通常 O(2^n) 或基于采样的近似 O(T * n)，T为样本数	O(p * poly(r) * n)，p为张量秩，r为阶数
结果性质	近似解（采样误差）	精确解（在模型假设下）
解释粒度	特征边际贡献	特征贡献，并分离出不同阶的交互作用
适用场景	任何经典ML模型	特定类型的量子模型、多项式核模型等

6.3 未来研究方向与应用展望

开发专用算法库：实现一个开源库，能够自动从PennyLane或Qiskit定义的量子函数中，通过自动微分提取高阶导数，构建对称张量，执行CP分解，最后根据公式计算SHAP值。这将极大降低使用门槛。
探索近似与启发式方法：对于非常高阶的模型，精确计算所有高阶导数可能不现实。研究如何通过随机投影、哈希技巧或利用量子电路本身的特性，来近似估计多线性形式的主要成分或低秩近似，将是重要的方向。
扩展到更一般的量子模型：并非所有量子模型都能严格表示为有限阶的多线性形式。研究如何将本框架扩展到包含非多项式激活函数（通过多项式逼近）、或者具有递归、注意力结构的量子-经典混合模型，是一个挑战。
指导量子电路设计：SHAP值不仅可以用于事后解释，还可以用于事前指导。通过分析不同电路架构（ansatz）产生的多线性形式的阶数和秩，我们可以设计出“内在可解释性”更强的量子电路，即那些用更低阶、更低秩的张量就能实现足够表达能力的电路。
量子特征选择：基于SHAP值，我们可以对输入特征进行排序和选择。在量子机器学习中，这可能意味着选择最相关的量子比特或测量基来进行编码，从而简化电路、减少噪声影响，提升模型性能。

将可解释AI的工具箱拓展到量子领域，不仅是为了满足监管和伦理需求，更是我们深入理解量子计算如何解决机器学习问题、发现量子优势本质的必经之路。本文建立的多线性形式理论框架，为这条道路打下了一块坚实的基石。它告诉我们，量子模型的可解释性并非遥不可及，通过巧妙的数学建模，我们可以将量子世界的神秘振幅，翻译成人类可以理解的“特征贡献度”故事。

查看全文

http://www.jsqmd.com/news/874799/