当前位置：首页 > news >正文

用Shap解释Transformer回归模型：从搭建到可视化

news 2026/4/9 20:34:18

Shap解释Transformer回归模型并且基于shap库对Transformer模型（pytorch搭建）进行解释，绘制变量重要性汇总图、自变量重要性、瀑布图、热图等等因为是回归模型，和分类模型没什么区别，只是需要修改一下loss的计算方式，所以只用到了Transformer的Encoder模块，使用了4层encoder和1层全连接网络的结果，没有用embedding，因为自变量本身就有15个维度，而且全是数值，相当于自带embedding 代码架构说明：第一步：数据处理数据是从nhanes数据库中下载的，自变量有15个，因变量1个，每个样本看成维度为15的单词即可，建模前进行了归一化处理第二步：构建transformer模型，包括4层encoder层和1层全连接层第三步：评估模型，计算测试集的recall、f1、kappa、pre等第四步：shap解释，用kernel解释器（适用于任意机器学习模型）对transformer模型进行解释，并且分别绘制自变量重要性汇总图、自变量重要性柱状图、单个变量的依赖图、单个变量的力图、单个样本的决策图、多个样本的决策图、热图、单个样本的解释图等8类图片代码注释详细，逻辑简单，有python基础就可以看懂，包括原始数据、源代码、详细的说明文档和运行结果图，下载后先看说明文档，可一键运行出图，可以替换为自己的数据，可以进行简单的

在数据科学的世界里，理解模型的决策过程和各变量的重要性至关重要。今天咱们就来聊聊如何用Shap库对基于PyTorch搭建的Transformer回归模型进行解释，并绘制一系列超有用的可视化图表。

一、数据处理

咱的数据来自NHANES数据库，有15个自变量，1个因变量。每个样本就好比一个15维的 “单词” 。建模前先得归一化处理，这就像给数据们都规整到一个起跑线上。

import pandas as pd from sklearn.preprocessing import MinMaxScaler # 假设数据下载后存为csv文件 data = pd.read_csv('nhanes_data.csv') X = data.drop('target_variable', axis = 1) y = data['target_variable'] scaler = MinMaxScaler() X_scaled = scaler.fit_transform(X)

在这段代码里，先用pandas库读取数据，然后把自变量和因变量分开。接着用MinMaxScaler进行归一化，让所有特征都在0到1之间，这样可以避免某些特征因为数值过大而主导模型训练。

二、构建Transformer模型

咱这回归模型只用到Transformer的Encoder模块，搭了4层encoder和1层全连接网络。由于自变量本身就是15维数值，就不用再搞embedding了，相当于它们自个儿就带了“入场券”。

import torch import torch.nn as nn from torch.nn import TransformerEncoder, TransformerEncoderLayer class TransformerRegression(nn.Module): def __init__(self, input_dim, hidden_dim, num_layers): super(TransformerRegression, self).__init__() encoder_layers = TransformerEncoderLayer(input_dim, nhead = 1) self.transformer_encoder = TransformerEncoder(encoder_layers, num_layers) self.fc = nn.Linear(input_dim, 1) def forward(self, src): output = self.transformer_encoder(src) output = torch.mean(output, dim = 1) output = self.fc(output) return output input_dim = 15 hidden_dim = 64 num_layers = 4 model = TransformerRegression(input_dim, hidden_dim, num_layers)

这里定义了一个TransformerRegression类，继承自nn.Module。在初始化里，先定义了TransformerEncoder，这里nhead设为1（简单起见），然后是一个全连接层。前向传播时，数据先经过TransformerEncoder，再取平均池化，最后通过全连接层输出预测值。

三、评估模型

模型搭好就得评估评估，咱计算测试集的recall、f1、kappa、pre这些指标。

from sklearn.metrics import recall_score, f1_score, cohen_kappa_score, precision_score import torch.optim as optim criterion = nn.MSELoss() optimizer = optim.Adam(model.parameters(), lr = 0.001) # 假设已经划分好训练集和测试集 X_train_tensor = torch.FloatTensor(X_scaled_train) y_train_tensor = torch.FloatTensor(y_train.values).unsqueeze(1) X_test_tensor = torch.FloatTensor(X_scaled_test) y_test_tensor = torch.FloatTensor(y_test.values).unsqueeze(1) for epoch in range(100): model.train() optimizer.zero_grad() output = model(X_train_tensor) loss = criterion(output, y_train_tensor) loss.backward() optimizer.step() model.eval() with torch.no_grad(): test_output = model(X_test_tensor) y_pred = test_output.squeeze().numpy() y_true = y_test_tensor.squeeze().numpy() recall = recall_score(y_true, y_pred.round()) f1 = f1_score(y_true, y_pred.round()) kappa = cohen_kappa_score(y_true, y_pred.round()) pre = precision_score(y_true, y_pred.round())

这里用均方误差（MSELoss）作为损失函数，Adam优化器来更新模型参数。训练100轮后，在测试集上计算各项指标。注意这里的round函数是因为某些指标计算需要二分类的预测结果。

四、Shap解释及可视化

这部分用kernel解释器对Transformer模型进行解释，然后绘制8类超酷的可视化图表。

import shap # 初始化KernelExplainer explainer = shap.KernelExplainer(model, X_train_tensor) # 计算SHAP值 shap_values = explainer.shap_values(X_test_tensor) # 绘制自变量重要性汇总图 shap.summary_plot(shap_values, X_test_tensor) # 绘制自变量重要性柱状图 shap.summary_plot(shap_values, X_test_tensor, plot_type='bar') # 绘制单个变量的依赖图，假设变量索引为0 shap.dependence_plot(0, shap_values, X_test_tensor) # 绘制单个变量的力图，假设变量索引为0 shap.force_plot(explainer.expected_value, shap_values[0], X_test_tensor[0]) # 绘制单个样本的决策图，假设样本索引为0 shap.decision_plot(explainer.expected_value, shap_values[0], feature_names = X.columns) # 绘制多个样本的决策图，假设前5个样本 shap.decision_plot(explainer.expected_value, shap_values[:5], feature_names = X.columns) # 绘制热图 shap.plots.heatmap(shap_values) # 绘制单个样本的解释图，假设样本索引为0 shap.force_plot(explainer.expected_value, shap_values[0], X_test_tensor[0], matplotlib = True)

首先初始化KernelExplainer，它适用于任意机器学习模型。然后计算SHAP值，这是Shap库用来衡量特征重要性的关键指标。接着就开始各种绘图，summaryplot绘制汇总图和柱状图展示各变量重要性；dependenceplot看单个变量与预测值的关系；forceplot和decisionplot分别从不同角度展示单个或多个样本的决策过程；heatmap热图能直观看到各特征与SHAP值的关系。