当前位置：首页 > news >正文

ESG评分不确定性量化：多重插补与预测区间在金融风险建模中的应用

news 2026/7/18 17:00:59

1. 项目概述：当ESG评分遇上数据“黑洞”，我们如何量化不确定性？

在金融风险建模的日常工作中，我们经常面对一个令人头疼的现实：你手头的数据集，尤其是像环境、社会和治理（ESG）这类非财务数据，永远是不完整的。这就像试图用一张布满破洞的渔网去捕捞信息，你永远不知道漏掉了多少关键细节，而这些“不知道”恰恰是风险滋生的温床。传统的做法，比如简单粗暴地用行业均值或中位数去填充这些缺失值，虽然能快速得到一个“完整”的数据表，但其代价是致命的——它人为地抹平了数据的真实波动，扭曲了变量之间的关联，最终导致基于此计算的ESG评分失真，风险评估的根基变得脆弱不堪。

我所在的团队最近就深度参与了一个大型银行的ESG内部评分模型优化项目。我们面对的是一个包含超过18万家公司的庞大数据集，涉及155个关键绩效指标（KPI），但平均缺失率惊人。这不仅仅是数据“少”了的问题，其缺失模式错综复杂：一家公司的“碳排放数据”是否披露，很可能与其所属行业（制造业 vs. 服务业）以及其“可再生能源使用比例”的数值有关，这是一种典型的随机缺失（MAR）机制；而某些公司可能因为其某项治理指标表现不佳而选择性地不披露，这又构成了非随机缺失（MNAR）。在这种背景下，仅仅给出一个单一的插补值（点估计）是远远不够的，甚至是危险的。我们需要回答的是：这个插补值有多可靠？如果数据完整，公司的真实ESG得分落在某个区间的概率有多大？

这正是多重插补技术大显身手的地方。它不再满足于提供一个“最佳猜测”，而是通过构建多个合理的完整数据集，来模拟和量化因数据缺失所引入的不确定性。本文将深入拆解我们如何将机器学习中的K近邻、梯度提升树、特别是链式方程多重插补（MICE）与预测区间估计方法（如预测均值匹配PMM和局部残差抽取LRD）相结合，构建一套从数据清洗到不确定性量化的完整工作流。这套方法不仅显著提升了插补的准确性，更重要的是，它为每一个ESG评分都配上了一把“尺子”——一个置信区间，使得风险管理人员能够清晰地看到评分背后的数据支撑强度，从而做出更审慎的决策。无论你是数据科学家、金融风险分析师，还是任何需要处理不完美数据的从业者，理解并应用这套“为不确定性定价”的方法，都将极大地提升你模型的稳健性和决策的可靠性。

2. 核心挑战与方案选型：为什么传统插补在ESG数据上“失灵”？

在动手构建任何模型之前，我们必须先理解问题的本质。ESG数据的缺失并非无章可循的噪声，其背后有着深刻的业务和统计逻辑，这直接决定了我们不能套用处理简单随机缺失数据的通用模板。

2.1 ESG数据缺失的复杂性与传统方法的局限

首先，ESG数据的缺失机制极其复杂。我们观察到，缺失往往与观测值本身相关。例如，一个重工业企业的“水资源消耗”数据缺失，很可能是因为该指标对其行业而言敏感或难以精确计量（MAR）；而一家公司“董事会性别多样性”数据的缺失，或许暗示其在该项上表现不佳（MNAR）。这种“非完全随机”的特性，意味着缺失本身携带了信息。传统的均值/中位数/众数插补方法完全忽略了这种信息，它假设缺失值是随机发生的，并用一个中心趋势值去填充所有空缺。这样做最直接的后果是严重压缩了数据的方差。想象一下，把所有缺失的碳排放值都填成行业均值，那么整个数据集中碳排放的分布就会向中心聚集，变得异常“平滑”，基于此计算的相关性和回归系数都会产生严重偏差。

其次，即便是更“聪明”一点的回归插补或机器学习单次插补（如用随机森林预测缺失值），也存在固有缺陷。这类方法虽然能利用变量间的相关性做出更准确的点估计，但它们通常会高估变量间的相关性，并且同样会系统性地低估插补值的变异性。因为模型给出的只是一个条件期望值（给定其他变量下的最佳预测），它没有包含预测误差。这导致后续分析（如计算ESG总分）会过度信赖这些插补值，误判结果的精确度。

注意：在金融风险场景下，低估不确定性比高估它更危险。低估意味着你认为风险是可控且明确的，而实际上它可能潜藏着巨大的、未被量化的尾部风险。

2.2 为何选择多重插补（MI）与MICE框架？

面对上述挑战，多重插补提供了一种范式上的解决方案。其核心哲学是承认“我不知道确切值，但我可以模拟它可能是什么”。MI通过为每个缺失值生成多个（例如m=50个）合理的插补值，创建出m个“完整”的数据集。随后，标准的分析流程（如计算ESG分数）在每个数据集上独立执行，最终将m个结果进行合并（如取均值作为点估计，计算方差以反映不确定性）。这种方法巧妙地将“处理缺失数据”和“完成最终分析”两个步骤分离开，并通过插补值的变异来直接度量不确定性。

在众多实现MI的算法中，我们选择了链式方程多重插补。原因有三：其一，灵活性。MICE不对整个数据的联合分布做强假设，而是通过一系列条件分布（链式方程）来迭代插补，这非常适合ESG数据中混合了连续、离散、半连续变量的复杂情况。其二，兼容性。MICE的每一步插补都可以嵌入强大的预测模型，如随机森林（RF）、梯度提升等，从而捕捉变量间复杂的非线性关系。其三，成熟度与可解释性。MICE是统计学和生物医学领域经过数十年验证的方法，有坚实的理论支撑和丰富的诊断工具，这在高度监管的金融应用中是一个重要优势。

2.3 引入预测不确定性：从点估计到区间估计

选定MICE作为框架后，下一个关键决策是如何在每次插补中引入合理的随机性，以生成那“多个”合理的值。如果只是用随机森林预测出单一值然后填充，那生成的多个数据集将是完全相同的，失去了MI的意义。这里我们引入了两种来自“热卡插补”家族的方法：预测均值匹配和局部残差抽取。

预测均值匹配：假设我们用随机森林预测某个样本的缺失KPI值为y_hat。PMM不会直接使用y_hat，而是在所有观测到的该KPI值中，寻找那些预测值（由同一个RF模型产生）与y_hat最接近的若干个（如n=10个）“捐赠者”。然后，随机从这些捐赠者的实际观测值中抽取一个，作为本次的插补值。这样做的好处是，插补值永远来自真实观测到的数据分布，避免了产生不合理或外推的值（例如，对于一个取值只能是0或1的二元指标，PMM永远不会插补出0.5这样的值）。
局部残差抽取：与PMM类似，LRD也是先找到预测值相近的捐赠者。不同之处在于，LRD将每个捐赠者的预测残差（观测值 - 其预测值）加到当前样本的预测值y_hat上。即：插补值 = y_hat + 随机抽取的捐赠者残差。这种方法更好地保留了预测模型本身的误差结构。

通过将PMM或LRD嵌入到MICE的每一次迭代中，我们确保了每次插补都会因随机抽取而略有不同，从而生成了能够反映预测不确定性的多个数据集。这套组合拳（MICE + RF + PMM/LRD）构成了我们应对ESG数据缺失挑战的核心技术方案。

3. 实战演练：构建一个完整的ESG数据不确定性量化流水线

理论很美好，但落地到超过18万家公司、155个KPI的庞大数据集上，每一步都需要精心的设计和工程化实现。下面我将详细拆解我们构建的从数据准备到不确定性评估的五步工作流，这远比简单地调用一个mice函数要复杂和严谨。

3.1 数据理解与预处理

我们的起点是银行内部的ESG数据集。第一步不是急于建模，而是进行彻底的探索性数据分析。我们计算了每个KPI的缺失率，绘制了缺失模式矩阵图，以直观感受缺失的严重程度和潜在的模式。例如，我们发现某些描述符（如“碳足迹”下的KPIs）整体缺失率很高，且不同KPI的缺失存在明显的共现性。这初步验证了MAR/MNAR的假设。我们将数据按公司层级（Tier）划分，Tier 1的数据来自顶级全球供应商，覆盖更全，质量更高；Tier 2则相对稀疏。这个分层信息在后续分析中至关重要。

3.2 五步工作流详解

为了客观评估我们的MICE-PMM/LRD模型在真实缺失模式下的性能，我们设计了一个包含数据模拟的闭环验证流程，而非简单随机挖洞再填补。

第一步：初始MICE插补与诊断我们首先在原始的真实数据集（包含真实缺失）上运行MICE算法（嵌入随机森林和PMM），生成50个完整的插补数据集。这一步的目的是获得一个初步的、可用的“完整”数据版本，并用于后续步骤生成合成数据。在此阶段，我们会进行关键诊断：比较每个KPI插补值的分布与观测值的分布是否一致。如图2所示，对于“碳足迹”描述符下的几个KPI，插补值的直方图与观测值直方图形状基本吻合，没有出现奇怪的峰或偏移，这说明插补过程没有引入明显的分布偏差。

第二步：校准缺失数据模拟模型这是整个工作流最具创新性的一步。为了模拟出与真实数据统计同质的缺失模式，我们需要一个能预测“某个数据点为何会缺失”的模型。我们为每一个KPI都训练了一个直方图梯度提升树模型。这个模型的目标变量是二元标签：该KPI在此样本上是否缺失（1/0）。特征则是所有其他KPIs的值。HGB有一个极其有价值的特性：它能原生处理特征中的缺失值。在训练时，树的分裂点会学习“当某个特征缺失时，样本应该向左还是向右子节点划分”。这使得模型不仅能利用其他KPI的数值来预测缺失概率，还能利用其他KPI的缺失模式本身作为预测信号，完美捕捉了真实数据中MAR和MNAR混合的复杂机制。

第三步：数据增强（生成合成“真实”数据）使用第一步中训练好的那一组随机森林模型（每个KPI一个），我们对其中一个插补数据集进行“再预测”。具体来说，对于数据集中的每一个样本的每一个KPI，我们都用对应的RF模型（以其他所有KPI为输入）重新计算其预测分布，并利用PMM/LRD从中抽取一个新值。这样，我们得到了一个全新的合成数据集。这个数据集里没有一个值是原始的观测值或第一次的插补值，但它的美妙之处在于，其所有变量的联合分布（边缘分布和变量间的相关性）与原始数据经过第一步插补后的分布是高度一致的。它成为了一个我们已知“真实值”的完美实验场。

第四步：数据“截肢”（施加模拟缺失）现在，我们动用第二步训练好的那一组HGB缺失预测模型。对于合成数据集中的每一个数据点（公司i的KPI j），我们用对应的HGB模型计算出其“缺失概率”。然后，我们进行一次伯努利试验：以该概率随机决定是否将这个数据点设为缺失。我们对所有数据点、所有KPI都执行此操作，并且为了达到稳定状态，我们将这个“对所有KPI施加一轮缺失”的过程迭代了10次。最终，我们得到了一个带有缺失值的合成数据集，其数据的分布和缺失的模式都与我们最初的真实数据集高度相似。至此，我们拥有了一个“黄金标准”测试集：我们知道每个缺失位置原本的真实值是什么。

第五步：最终MICE插复与性能评估我们将第四步生成的、带有模拟缺失的合成数据集，按70%/30%划分为训练集和测试集。在训练集上，我们重新运行完整的MICE（RF+PMM/LRD）算法，训练出新的插补模型。然后，用这个模型去插补测试集的缺失值。因为测试集中所有“缺失”值的真实值我们是知道的（来自第三步的合成数据），所以我们可以精确计算插补性能指标：

均方根误差：衡量插补值与“真实值”的平均偏差。
平均绝对误差：同上，但对异常值不那么敏感。
覆盖率：这是最关键的指标。我们根据50次多重插补为每个缺失值计算一个95%的预测区间。CR就是指有多少比例的“真实值”落入了其对应的预测区间内。一个校准良好的模型，CR应该接近95%。
平均宽度：预测区间的平均长度。我们希望在保证高覆盖率的前提下，区间宽度尽可能窄，这样预测才更精确。

通过这个五步流程，我们不是在理想条件下测试模型，而是在一个无限逼近真实数据复杂性的环境中进行压力测试，得到的性能评估结果具有极高的可信度。

4. 结果解读与业务洞察：不确定性如何照亮决策盲区？

经过上述严谨的流程，我们得到了一系列量化的结果。这些数字和图表不仅仅是模型性能的证明，更是转化为业务洞察的桥梁。

4.1 性能指标告诉我们什么？

从表1的汇总结果来看，无论是使用PMM还是LRD，MICE多重插补在ESG总分和三大支柱（环境、社会、治理）得分层面都表现出了良好的性能。RMSE和MAE值都非常低（在0.04-0.07之间），说明插补的点估计本身是准确的。但更重要的是覆盖率。PMM在ESG总分上的覆盖率为89.7%，LRD达到了92.2%。虽然略低于理想的95%，但这在如此高维、高缺失率且缺失模式复杂的现实数据中，已经是一个相当稳健的结果。它意味着，我们的预测区间是基本可靠的，能够较好地捕捉真实值可能出现的位置。

AW（平均宽度）则给出了不确定性的“量级”。例如，ESG总分（标准化后假设为0-1分）的预测区间平均宽度在0.12到0.14之间。这听起来不大，但考虑到ESG评分常被用于排名和分级，这个宽度可能意味着公司排名上下浮动几十甚至上百个位次。这正是风险所在。

4.2 从公司视角看不确定性传导

图3的联合分布图提供了一个极具说服力的微观视角。它展示了5家样本公司，经过多重插补后，其三大支柱得分的分布情况（以散点云表示），并与传统的单次插补点估计（图中的星号）进行对比。

缺失率是驱动不确定性的首要因素：图中橙色公司缺失率最高（27%），其三个支柱得分的预测分布云团也最为分散，覆盖了更大的分数空间。相比之下，蓝色和绿色公司缺失率较低（10%），其得分分布就集中得多。
点估计的误导性：橙色公司的治理得分，其点估计（单次插补结果）看起来与红色、蓝色公司有明显差距。但当我们观察其预测分布时，会发现这三个公司的治理得分分布存在大范围的重叠。这意味着，基于单次插补，我们可能会错误地将橙色公司判定为治理表现显著更差，而实际上，由于数据缺失严重，我们根本无法有把握地区分它们。这是单一数值评分带来的“虚假精确度”。
不确定性溯源：紫色公司和红色公司缺失率相同（12%），但不确定性结构不同。红色公司在三个支柱上的不确定性分布相对均匀，而紫色公司的不确定性几乎全部集中在治理支柱上。这提示风险分析师，对于紫色公司，其环境和社会的评分相对可靠，但治理评分需要打上一个大的问号，可能需要寻求额外的信息或进行更保守的假设。

4.3 分层分析与数据质量的影响

图4的箱线图从宏观层面揭示了规律。它将所有公司按数据层级（Tier）和缺失率分箱，展示其ESG总分预测区间的宽度。

明确的正相关：无论哪个Tier，随着缺失率升高，预测区间宽度（不确定性）几乎线性增加。这直观地印证了“数据越少，信心越低”的常识。
数据质量的关键作用：在相同缺失率区间内，Tier 2公司的预测区间宽度普遍大于Tier 1公司。这说明，缺失率不是唯一的决定因素。Tier 1的数据来自更可靠的供应商，其数据本身的质量更高、噪声更小，即使有部分缺失，模型也能基于更干净的相关信息做出更精确的插补。而Tier 2的数据可能本身存在更多噪声或不一致，加剧了插补的不确定性。

实操心得：这个发现对数据采购和治理策略有直接指导意义。与其盲目追求覆盖所有公司的所有指标，不如优先确保核心样本（如重大风险敞口对应的公司）的数据来源质量。对于数据质量差的群体，其评分的不确定性必须被显式地、放大化地考虑进风险决策中。

5. 模型对比、调参与生产化部署的考量

在确定了MICE-PMM/LRD为主方案后，我们仍需回答两个问题：为什么是它？以及如何把它用起来？

5.1 主流插补方法横向评测

在项目初期，我们对多种方法进行了基准测试，包括K近邻、直方图梯度提升树、去噪自编码器、图卷积网络以及简单的均值插补。测试在一个包含505家公司的子集上进行，随机移除30%已知值作为测试基准。

KNN与MICE：表现最佳且稳定，与文献结论一致。它们能直接处理全缺失数据集（无需预填充），且计算效率相对较高。KNN的非参数特性使其灵活，而MICE的迭代框架则更理论严谨。
图卷积网络：取得了与KNN相近的精度。GCN将样本视为图节点，利用样本间的相似性（此处用加权曼哈顿距离）进行信息传播和插补，可以看作是KNN的一种高级、非线性泛化。但其代价是高昂的计算成本，需要构建庞大的图结构并训练神经网络。
去噪自编码器：表现甚至不如简单均值插补。核心原因在于，DAE通常需要一个初始的预填充（比如用均值填充）来启动训练，这个有偏的初始值会严重影响模型的学习过程，尤其是在高缺失率场景下。
简单统计插补（均值/中位数/众数）：作为基线，表现最差，因为它完全破坏了数据的协方差结构。

结论：对于ESG这类高维、复杂缺失的表格数据，KNN和MICE仍然是实用性和性能的最佳平衡点。GCN虽展示了潜力，但其额外的复杂性和计算开销在当前场景下性价比不高。

5.2 关键参数调优与工程化陷阱

将MICE-PMM用于生产环境，需要注意以下细节：

迭代次数与收敛诊断：MICE是一个迭代算法。我们通常设置max_iter=10-20，并通过观察插补值在连续迭代间的变化是否已趋于稳定（例如，所有变量均方变化小于阈值）来判断收敛。务必绘制迭代轨迹图进行视觉检查。
捐赠者数量：PMM/LRD中的关键参数。捐赠者池太小（如n=3），会增加方差，使插补结果不稳定；太大（如n=50），则会过度平滑，偏向于全局分布。我们通过交叉验证发现，对于我们的数据规模，n=10到20是一个稳健的选择。
预测模型的选择：我们选择了随机森林，因为它能自动处理非线性关系和交互效应，且对异常值不敏感。在scikit-learn的实现中，确保使用max_features='sqrt'或log2来增加树之间的多样性，这对于通过袋外样本估计预测不确定性至关重要。
计算效率与并行化：MICE可以轻松并行化，因为对每个变量的插补是条件独立的（在每次迭代内）。我们使用joblib库进行多进程并行，将50次多重插补任务分配到多个CPU核心上，将数小时的计算缩短到几十分钟。
内存管理：生成50个完整的数据集副本会消耗大量内存。对于超大规模数据，可以采用“即时分析”策略：不一次性保存所有插补数据集，而是在每次插补后立即进行ESG评分计算，只累加和存储必要的统计量（如得分之和、平方和），最后再合并计算均值和方差。

5.3 常见问题与排查清单

在实际操作中，你可能会遇到以下问题：

问题：覆盖率持续低于95%，预测区间过于乐观。
- 排查：检查预测模型（如RF）是否过拟合。尝试增加树的数量、减少树的最大深度。检查PMM/LRD的捐赠者数量是否过少。确认缺失机制模拟（HGB模型）是否准确，可能真实缺失包含更强的MNAR成分，而模型未捕捉到。
问题：插补后某些变量的分布出现畸形（如双峰变单峰）。
- 排查：这通常是PMM的优势所在。确保使用了PMM而非简单的回归插补。检查捐赠者池是否足够大且具有代表性。对于高度偏态或含有大量重复值的半连续变量，PMM几乎是必须的。
问题：计算时间过长。
- 排查：首先进行特征降维或筛选，移除缺失率极高或方差极低的KPI。使用随机森林时，调整n_estimators（如从500降至100）和max_depth。启用并行计算。对于超大数据集，考虑先对样本进行聚类，分簇进行插补。
问题：如何将不确定性融入最终的ESG评级（如AAA-CCC）？
- 方案：不要只使用得分的均值去定级。可以计算每个公司得分落在不同评级阈值区间的概率。例如，公司A的ESG得分有70%概率落在“BBB”区间，30%概率落在“BB”区间。这可以输出为一个“概率评级矩阵”，为风险决策提供远比单一评级更丰富的信息。