当前位置：首页 > news >正文

机器学习的模型解释方法

news 2026/5/28 15:59:23

模型解释

在机器学习飞速发展的今天，模型的预测准确率越来越高，但我们却常常面临一个尴尬的问题：模型为什么给出这个预测？特别是在医疗、金融、司法、自动驾驶等高风险领域，如果我们无法解释模型的决策，就很难获得用户的信任，也难以满足监管要求。

模型解释是指将复杂的机器学习模型决策过程变得人类可理解的技术。它主要回答两个层次的问题：

局部解释（Local Explanation）：针对单个样本，模型为什么做出这个预测？每个特征分别贡献了多少？

全局解释（Global Explanation）：从整体上看，模型依赖哪些特征？特征如何影响预测结果？

好的模型解释方法需要同时具备准确性、稳定性、一致性和可理解性。

目前主流的模型解释方法

方法名称	作用范围	核心思想	优点	缺点
SHAP	全局 + 局部	基于合作博弈论Shapley值，公平分配每个特征对预测的贡献	理论基础坚实、满足一致性、统一全局与局部解释	计算复杂度高（精确算法为指数级）
LIME	局部	在预测点附近生成扰动样本，用局部可解释模型（如线性模型）近似原模型	速度快、直观、适合单个预测解释	解释结果不稳定、选择邻域半径敏感
排列重要性	全局	打乱单个特征的值，观察模型预测误差的变化幅度	简单快速、模型无关、易于实现	无法区分正负影响、对相关特征敏感
部分依赖图 (PDP)	全局	固定其他特征，让目标特征在其取值范围内变化，绘制平均预测值曲线	直观展示边际效应、可视化效果好	最多只能同时展示两个特征、可能掩盖异质性（正负抵消）
ICE曲线	局部 → 全局	为每个样本单独绘制预测值随特征变化的曲线	揭示个体异质性、弥补PDP的不足	曲线过多时不易阅读、需配合PDP使用
全局代理模型	全局	用可解释模型（如线性回归、决策树）近似黑盒模型的预测	灵活、可解释性强、适用于任何黑盒模型	引入近似误差、代理模型本身可能不准确
对比解释 (Counterfactual)	局部	寻找最小的特征改动，使得模型预测结果改变	帮助理解决策边界、可操作性强	对特征相关性敏感、可能不存在可行解
基于梯度的方法 (Saliency Map)	局部	计算输入对输出的梯度，反映输入的微小变化对预测的影响	适合深度学习模型（图像/文本）、计算高效	只能解释局部敏感度、梯度饱和问题
集成梯度 (Integrated Gradients)	局部	沿基线到输入的直线路径积分梯度，满足公理	解决梯度饱和、满足敏感性与实现不变性	需要模型可微、基线选择影响结果
树模型原生重要性	全局	基于分裂次数、不纯度减少（如Gini重要性）或覆盖度	计算极快、与树模型（RF/XGBoost）无缝集成	仅适用于树模型、不同指标可能矛盾
内在可解释模型	全局	模型结构本身简单（如线性回归、逻辑回归、小深度决策树）	天生可解释、无需事后分析	表达能力有限、精度通常低于黑盒模型

这里以最常用的 SHAP 方法为例。

SHAP 起源

SHAP全称是 SHapley Additive exPlanation，属于模型事后解释的方法，可以对复杂机器学习模型进行解释。虽然来源于合作博弈论，但只是以该思想作为载体。在进行局部解释时，SHAP的核心是计算其中每个特征变量的Shapley Value。

Shapley：代表对每个样本中的每一个特征变量都计算出它的 Shapley Value。

Additive：代表对每一个样本而言，特征变量对应的 shapley value是可加的。

exPlanation：代表对单个样本的解释，即每个特征变量是如何影响模型的预测值。

示例

根据已知，记v(A)=100，v(B)=125，v(C)=50，v(A,B)=270，v(B,C)=350，v(A,C)=375，v(A,B,C)=500v(A) = 100，v(B) = 125，v(C) = 50，v(A,B) = 270，v(B,C) = 350，v(A,C) = 375，v(A,B,C) = 500v(A)=100，v(B)=125，v(C)=50，v(A,B)=270，v(B,C)=350，v(A,C)=375，v(A,B,C)=500

概率	顺序	A 的边际贡献	B 的边际贡献	C 的边际贡献
1/6	A, B, C	v(A)=100v(A) = 100v(A)=100	v(A,B)−v(A)=170v(A,B) - v(A)= 170v(A,B)−v(A)=170	v(A,B,C)−v(A,B)=230v(A,B,C) -v(A,B)= 230v(A,B,C)−v(A,B)=230
1/6	A, C, B	v(A)=100v(A) = 100v(A)=100	v(A,B,C)−v(A,C)=125v(A,B,C) - v(A,C) = 125v(A,B,C)−v(A,C)=125	v(A,C)−v(A)=275v(A,C) -v(A)= 275v(A,C)−v(A)=275
1/6	B, A, C	v(A,B)−v(B)=145v(A,B) - v(B) = 145v(A,B)−v(B)=145	v(B)=125v(B) = 125v(B)=125	v(A,B,C)−v(A,B)=230v(A,B,C) -v(A,B)= 230v(A,B,C)−v(A,B)=230
1/6	B, C, A	v(A,B,C)−v(B,C)=150v(A,B,C) -v(B,C)= 150v(A,B,C)−v(B,C)=150	v(B)=125v(B) = 125v(B)=125	v(B,C)−v(B)=225v(B,C) -v(B)= 225v(B,C)−v(B)=225
1/6	C, A, B	v(A,C)−v(C)=325v(A,C) -v(C)= 325v(A,C)−v(C)=325	v(A,B,C)−v(A,C)=125v(A,B,C) -v(A,C)= 125v(A,B,C)−v(A,C)=125	v(C)=50v(C) = 50v(C)=50
1/6	C, B, A	v(A,B,C)−v(B,C)=150v(A,B,C) -v(B,C)= 150v(A,B,C)−v(B,C)=150	v(B,C)−v(C)=300v(B,C) -v(C)= 300v(B,C)−v(C)=300	v(C)=50v(C) = 50v(C)=50
Shapley Value	161.67	161.67	176.67
Ratio	32.33	32.33	35.33

SHAP 计算公式

ϕi(f,x)=∑z′⊆x′∣z′∣!(M−∣z′∣−1)!M![fx(z′)−fx(z′∖i)] \phi_i(f, x) = \sum_{z' \subseteq x'} \frac{|z'|!(M - |z'| - 1)!}{M!} \left[ f_x(z') - f_x(z' \setminus i) \right]ϕi(f,x)=z′⊆x′∑M!∣z′∣!(M−∣z′∣−1)![fx(z′)−fx(z′∖i)]

z′z'z′表示当前已加入的特征联盟（哪些特征“在场”）。是一个与特征数一样长的0/10/10/1项量；
∣z′∣|z'|∣z′∣当前联盟大小。为111的个数；
MMM表示特征的个数；
iii表示要当前计算的特征；
fx(z′)f_x(z')fx(z′)是加入iii之后模型在该联盟下的预测值；
fx(z′∖i)f_x(z' \setminus i)fx(z′∖i)是加入iii之前模型在该联盟下的预测值；

公式本质是：该特征在所有可能的特征子集组合下的边际贡献的加权平均值！

该个体特征AAA的 shapely value 计算

联盟	个数	概率	特征边际效应	特征 shapley value
空集 {}	000	0!×2!/6=1×2/6=1/30! × 2! / 6 = 1×2/6 = 1/30!×2!/6=1×2/6=1/3	v(A)−v()=100−0=100v({A}) − v({}) = 100 − 0 = 100v(A)−v()=100−0=100	(1/3)×100≈33.33(1/3)×100 ≈ 33.33(1/3)×100≈33.33
{BBB}	111	1!×1!/6=1×1/6=1/61! × 1! / 6 = 1×1/6 = 1/61!×1!/6=1×1/6=1/6	v(A,B)−v(B)=270−125=145v({A,B}) − v({B}) = 270 − 125 = 145v(A,B)−v(B)=270−125=145	(1/6)×145≈24.17(1/6)×145 ≈ 24.17(1/6)×145≈24.17
{CCC}	111	1!×1!/6=1/61! × 1! / 6 = 1/61!×1!/6=1/6	v(A,C)−v(C)=375−50=325v({A,C}) − v({C}) = 375 − 50 = 325v(A,C)−v(C)=375−50=325	(1/6)×325≈54.17(1/6)×325 ≈ 54.17(1/6)×325≈54.17
{B,CB,CB,C}	222	2!×0!/6=2×1/6=1/32! × 0! / 6 = 2×1/6 = 1/32!×0!/6=2×1/6=1/3	v(A,B,C)−v(B,C)=500−350=150v({A,B,C}) − v({B,C}) = 500 − 350 = 150v(A,B,C)−v(B,C)=500−350=150	(1/3)×150=50.00(1/3)×150 = 50.00(1/3)×150=50.00