当前位置：首页 > news >正文

CML估计器：融合机器学习与工具变量，稳健估计因果效应

news 2026/7/15 2:47:12

1. 项目概述与核心问题

在实证研究的工具箱里，因果推断一直是个让人又爱又恨的领域。爱的是，它直指我们最关心的“如果…那么…”问题；恨的是，现实数据里无处不在的内生性、混杂变量和选择偏差，让干净的因果识别变得异常困难。工具变量（IV）方法，作为解决内生性问题的经典武器，其核心思想很直观：找一个外生的“工具”，它只通过影响处理变量来间接影响结果变量，从而剥离出处理效应中干净的部分。然而，传统的IV方法，比如两阶段最小二乘法（2SLS），在面对高维数据、复杂的非线性关系，或者当“工具”本身不够“强”时，常常显得力不从心。

近年来，机器学习（ML）的浪潮席卷了各个领域，因果推断也不例外。将ML引入IV框架，听起来是个完美的组合：ML擅长从复杂数据中学习模式，而IV提供了因果识别的骨架。但实际操作起来，坑却不少。最核心的一个问题是，ML模型（比如随机森林、神经网络）在估计第一阶段（即工具变量对处理变量的预测）时，会引入估计误差。这个误差如果直接带入第二阶段的回归，会导致严重的偏差，甚至让估计结果失去一致性。这就是所谓的“正则化偏差”或“过拟合偏差”。

我最近在复现和拓展一篇关于“合规机器学习估计器”（Compliance Machine Learning Estimator, CML）的论文时，对这个问题有了更深的体会。这个估计器巧妙地将最优相关工具变量（Optimal Relevant-Relevance IV, ORR-IV）的思想与双机器学习（Double/Debiased Machine Learning, DML）的正交化技术结合起来，目标是在局部平均处理效应（LATE）的框架下，得到一个更稳健、对模型设定更不敏感的估计量。简单来说，它想在利用ML强大拟合能力的同时，通过数学上的“正交化”设计，确保第一阶段的估计误差不会污染最终的因果效应估计。这篇博文，我就结合自己的实操经验，拆解一下CML估计器的原理、优势、实现步骤，以及在模拟和真实数据中踩过的那些坑。

2. 理论基石：从LATE框架到正交矩

要理解CML，我们得先回到它的老家——局部平均处理效应（LATE）框架。这个由Imbens和Angrist在1994年提出的框架，已经成为了IV分析中的标准语言。它不追求估计全人群的平均处理效应（ATE），而是聚焦于一个更现实、也更可识别的群体：“依从者”（Compliers），即那些因为工具变量取值变化而改变其处理状态的个体。

2.1 LATE框架的核心假设与识别

LATE的识别依赖于几个关键假设。为了更直观，我们可以用一个经典的例子来类比：研究大学教育（处理D）对未来收入（结果Y）的影响。显然，能力（混杂因素）同时影响一个人是否上大学以及其收入，直接回归会有偏差。经济学家常使用“是否靠近大学”或“征兵抽签结果”作为工具变量Z。

相关性：工具变量Z必须与处理变量D相关。比如，住在大学附近的人，上大学的概率确实更高。
排他性约束：工具变量Z只能通过影响处理变量D来影响结果Y，不能有其他路径。例如，“靠近大学”除了增加上大学概率外，不应直接影响个人收入（比如通过当地劳动力市场环境）。
独立性：工具变量Z在给定协变量X的条件下，与潜在结果和潜在处理状态独立。这通常通过随机化或条件随机化来满足。
单调性：工具变量对处理的影响方向对所有人一致。要么都是正向刺激（比如靠近大学对所有人都会增加上大学倾向），要么都是负向刺激。这个假设排除了“反抗者”（Defiers）——即那些工具变量让你做A，你偏要做B的人。

在满足这些假设下，LATE被识别为著名的Wald估计量：τ = [E(Y|Z=1) - E(Y|Z=0)] / [E(D|Z=1) - E(D|Z=0)]这个公式直观地刻画了工具变量带来的“结果差异”与“处理差异”之比。

2.2 传统方法的局限与机器学习的诱惑

传统的IV估计，无论是2SLS还是基于上述Wald比率的估计，通常依赖于参数模型（如线性）。但在现实中，关系可能是非线性的，协变量X可能维度很高且交互复杂。这时，机器学习模型强大的非参数拟合能力就极具吸引力。我们很自然地会想：用随机森林或神经网络来更精准地估计E(D|Z,X)和E(Y|X)，岂不是更好？

然而，直接替换会出问题。ML模型为了追求预测精度，通常会引入偏差（如正则化）或方差（如过拟合）。在IV的两步估计中，第一阶段E(D|Z,X)的估计误差会直接传递到第二阶段，导致最终的因果效应估计量不再具有“√N 相合性”（即估计误差以1/√N的速度收敛）。这就是Chernozhukov等人在2018年提出双机器学习（DML）框架所要解决的核心问题。

2.3 正交矩：免疫于第一阶段误差的关键

DML的核心思想是构造一个“正交矩条件”。所谓“正交”，是指这个矩条件关于第一阶段的估计误差的导数（即影响函数）为零。这意味着，即使第一阶段估计有微小的偏差，只要这个偏差收敛得足够快（比1/√N慢），它就不会影响最终因果效应估计量的渐近分布。这就好比给估计量打了一针“误差免疫疫苗”。

在IV背景下，一个常见的正交矩条件是基于残差化（或称为“去偏”）的构造。对于参数θ，我们寻找一个函数ψ，使得E[ψ(W; θ, η)] = 0，其中η代表需要估计的冗余参数（如条件期望）。通过特殊设计，使得∂E[ψ]/∂η = 0，从而实现正交性。

CML估计器正是基于一个精心设计的正交矩条件构建的。它的聪明之处在于，其工具函数κ(Z,X)直接来源于数据生成过程的一个关键量：ξ*(Z,X) = E[D|Z,X] - E[D|X]。这个量衡量了在给定协变量X后，工具变量Z对于处理变量D的“额外”预测能力，直观上可以理解为“条件相关性”。论文证明，基于这个工具函数构造的估计量，其对应的矩条件是正交的。

关键理解：ξ*(Z,X)为什么是个好工具？在LATE框架下，E[D|Z=1,X] - E[D|Z=0,X]正是给定X时，依从者的比例（当单调性成立时）。因此，ξ*(Z,X)本质上是一个与依从概率紧密相关的量。用它作为工具，相当于在估计时，自动对那些工具变量影响更强（即更可能是依从者）的个体赋予更高权重，这从效率上看是合理的。

3. CML估计器的构造与优势解析

理解了正交矩的思想，我们就可以深入CML的具体构造了。它的全称是“合规机器学习估计器”，这个名字里的“合规”直接指向了LATE框架中的“依从者”。

3.1 估计器的推导与形式

我们从基础的线性模型开始思考，但最终会放松线性假设。假设我们关心的结构方程是：Y = Dθ + g(X) + ε, 其中E[ε|X] = 0，但D可能与ε相关（内生性）。同时，我们有工具变量Z，以及第一阶段关系：D = m(Z, X) + v，其中E[v|Z,X]=0。

CML的目标是估计θ。其核心步骤如下：

残差化：首先，将结果Y和处理D分别对协变量X做回归，得到残差。即，计算Ỹ = Y - E[Y|X]和D̃ = D - E[D|X]。这一步的目的是剔除X的直接影响，将问题转化为一个“净化”后的变量之间的关系。
构造最优工具：然后，构造工具变量κ(Z,X) = E[D|Z,X] - E[D|X]。注意，这正是前面提到的ξ*(Z,X)。这个构造的妙处在于，E[κ(Z,X)|X] = 0自��成立。
利用正交矩估计：最后，我们利用以下矩条件进行估计：E[ (Ỹ - D̃θ) * κ(Z,X) ] = 0解这个方程，就得到了CML估计量：θ_CML = E[Ỹ * κ(Z,X)] / E[D̃ * κ(Z,X)]

在实际操作中，所有的条件期望E[Y|X],E[D|X],E[D|Z,X]都需要用数据来估计。这里就是机器学习大显身手的地方。我们可以用任何ML模型（LASSO、随机森林、神经网络等）来拟合这些复杂的条件期望函数。

3.2 与双机器学习（DML）的对比

为了看清CML的优势，必须把它和目前更流行的DML-IV方法做个对比。在DML框架下，通常使用的工具变量就是Z本身（或其去均值化形式Z - E[Z|X]）。对应的矩条件是：E[ (Y - E[Y|X] - (D - E[D|X])θ) * (Z - E[Z|X]) ] = 0

两者的核心区别就在于工具函数的选择：

DML：工具 =Z - E[Z|X]
CML：工具 =E[D|Z,X] - E[D|X]

这个差异带来了理论上的重要优势。论文证明，在LATE框架下，CML估计量对应的参数θ0可以表示为一系列条件LATEτ(X)的凸组合，且权重ω(X) = Var(E[D|Z,X] | X)总是非负的。这意味着，即使放松了“强单调性”假设（即允许在协变量的某些取值上存在“反抗者”），只要“弱单调性”成立（即反抗者和依从者不会在同一个X取值下共存），CML估计量仍然有一个清晰的因果解释——它是不同子群体处理效应的一个加权平均。

反观DML估计量，其权重中包含一项c(X) = sign(P(依从|X) - P(反抗|X))。在弱单调性下，c(X)可能在某些X上为-1。这就导致DML估计量的权重可能为负，从而失去了作为“处理效应加权平均”的直观因果解释。只有当强单调性处处成立（即完全没有反抗者）时，DML的权重才非负。

实操心得：这个理论区别在应用中有多重要？它意味着CML对模型假设的要求更弱，因而更稳健。在实际研究中，我们往往很难百分之百地保证“强单调性”在整个样本中都成立。例如，在研究某项政策时，可能对男性群体是正向激励，对女性群体却是负向激励。CML在这种情况下仍能给出一个有意义的（正权重）平均效应，而DML的结果可能难以解释。

3.3 估计步骤与交叉拟合

理论很美好，但落地是关键。CML的估计涉及多个ML模型的拟合，如何避免过拟合导致的偏差？这里就必须引入交叉拟合技术。以下是完整的CML算法步骤：

样本分割：将总样本随机划分为K份（通常K=5或10），记为I_1, ..., I_K。
辅助模型估计（出样本）：对于每一份数据I_k： a. 使用除I_k外的所有其他数据，训练三个机器学习模型： - 模型M_y: 用X预测Y，得到函数η̂_1(X) = Ê[Y|X]。 - 模型M_d: 用X预测D，得到函数η̂_2(X) = Ê[D|X]。 - 模型M_dz: 用Z和X预测D，得到函数p̂(Z,X) = Ê[D|Z,X]。 b. 对份内数据I_k中的每个样本i，计算： -Ỹ_i = Y_i - η̂_1(X_i)（用份外数据训练的模型预测并残差化） -D̃_i = D_i - η̂_2(X_i)-κ̂_i = p̂(Z_i, X_i) - η̂_2(X_i)（这就是估计出的工具变量）
汇集与最终估计：将所有K份数据计算出的(Ỹ_i, D̃_i, κ̂_i)汇集起来。然后，运行一个简单的工具变量回归（无需截距项）：
- 将Ỹ对D̃进行回归，使用κ̂作为工具变量。
- 回归系数即为CML估计量θ̂_CML。

注意事项：交叉拟合是保证估计无偏的关键。绝对禁止使用同一份数据既训练辅助模型，又用于计算残差。这会导致“数据窥探偏差”，严重高估模型性能，并使最终估计量不一致。在实际编程中，务必仔细检查样本分割和索引的逻辑。

4. 蒙特卡洛模拟：在虚拟世界中检验性能

理论性质需要在模拟实验中经受考验。原文设计了一系列蒙特卡洛模拟，对比了CML、DML以及一个基于Angrist and Imbens (1995)矩条件的非正交估计器（AI）的性能。我复现了其主要实验，并总结出以下几点核心发现：

4.1 模拟设计要点

模拟数据生成过程（DGP）精心设计，以区分不同估计器的表现：

DGP1 & DGP2：这里故意设置了一个“陷阱”，使得E[Cov(D,Z|X)]接近于零。这是DML识别条件接近失效的场景，但对CML影响较小，因为CML依赖的是ξ*(Z,X) ≠ 0。
DGP3 & DGP4：所有估计量（CML, DML, AI）的概率极限都相同，且等于真实的LATE。这是一个相对“公平”的对比场景。
协变量X：包含真正有预测力的X1和纯噪音X2，以检验模型在无关变量干扰下的稳健性。
机器学习方法：同时使用随机森林（RF）和神经网络（NN）来估计条件期望，以检验方法对具体ML工具的敏感性。

4.2 核心结果与解读

模拟结果（以MSE、偏差平方和方差分解呈现）清晰地展示了几个模式：

非正交矩的代价：AI估计器（非正交）在DGP1和DGP2中表现出巨大的偏差和方差。这是因为第一阶段的估计误差被直接放大。相比之下，基于正交矩的CML和DML的偏差和方差都小得多。这强烈印证了在ML-IV中使用正交矩的必要性。
CML的稳健性优势：在DML识别条件脆弱的DGP1和DGP2中，DML的估计量变得极不稳定（MSE巨大），而CML则保持了良好的性能。即使在以真实LATE为评价标准时，CML的MSE也远低于DML。这是因为在这些DGP中，强单调性假设被违反，导致DML估计量的权重出现负值，使其概率极限偏离真实LATE。
ML工具选择的影响：对于正交估计器（CML, DML），使用随机森林还是神经网络，其结果差异很小。但对于非正交的AI估计器，选择不同的ML工具会导致性能的巨大差异（例如，NN远优于RF）。这表明，正交化技术降低了对第一阶段ML模型具体选择的敏感性，这是一个非常实用的优点。
样本量的影响：随着样本量从500增加到2000，所有估计器的方差都如预期般下降。但CML相对于DML的方差劣势（因为需要估计更多的冗余参数E[D|Z,X]）在样本量增大后逐渐缩小。在样本量足够大时，两种实现方式的CML（标准算法和类似DML的双交叉拟合算法）表现几乎一致。

模拟复现心得：在复现此类模拟时，随机种子的设置至关重要。为了得到稳定的结论，需要运行足够多的重复（如1000次）。此外，机器学习模型的超参数（如树的深度、神经网络层数）需要谨慎设置。一个常见的做法是使用一个独立的验证集或交叉验证来调整超参数，但在模拟的每个重复中都这样做计算成本极高。在实践中，可以基于一个先导实验确定一组合理的超参数，并在所有重复中固定使用。虽然这不完全严谨，但若比较是在相同条件下进行，结论仍然是有效的。

5. 实战演练：俄勒冈州健康保险实验分析

理论模拟过关后，我们将其应用于一个经典数据集：俄勒冈州健康保险实验（OHIE）。这个实验因为其“随机抽签”设计，为研究医疗保险（Medicaid）的影响提供了一个近乎完美的准自然实验场景。

5.1 数据与背��

2008年，俄勒冈州为低收入成年人提供了有限的Medicaid名额，由于申请者远超名额，州政府采用了随机抽签的方式来决定谁有资格申请。我们将“是否被抽中”作为工具变量Z，将“最终是否参保”作为内生处理变量D，研究参保对医疗资源使用情况（Y）的影响，例如处方药数量、门诊次数、急诊室使用等。

原始研究（Finkelstein et al., 2012）使用了传统的IV方法。我们则用CML等机器学习方法重新分析，并加入了更多控制变量（如性别、年龄、收入、教育等）。

5.2 估计结果与对比

我们对比了以下几种方法：

基准OLS/IV：Finkelstein等人的原始结果。
DML：使用Z - E[Z|X]作为工具的双机器学习。
CS：使用Coussens and Spiess (2021)提出的工具(E[D|Z=1,X]-E[D|Z=0,X])*(Z-E[Z])的估计器。
CML：我们讨论的合规机器学习估计器。

主要发现如下：

核心结论一致：所有方法都发现，获得医疗保险显著增加了处方药的使用和门诊访问次数。这证实了原始研究的主要结论，也说明了ML方法在保持结论稳健性方面的能力。
效应量差异：CML和CS估计出的效应量（点估计值）通常比DML和基准IV更大。例如，对于门诊次数，CML估计的增加量比基准IV高出约20%。一个可能的解释是，在这个应用中，强单调性假设可能不完美成立。如前所述，在这种情况下，DML的估计量可能因负权重而向下偏误，而CML则能保持更合理的加权平均。
精度提升：在大多数结果上，CML给出了更小的标准误，意味着更高的估计精度。虽然在这个大样本（n≈23，000）中提升不巨大，但在样本量较小的研究中，这种效率增益可能非常宝贵。
算法稳健性：使用随机森林或神经网络得到的CML估计结果非常接近，再次验证了正交估计器对ML工具选择不敏感的特性。

实操陷阱与解决方案：
聚类标准误：OHIE数据是在家庭层面随机化的，同一个家庭内的个体可能存在相关性。因此，计算标准误时必须进行“家庭层面聚类调整”。许多现成的ML库不会自动输出聚类稳健的标准误。我们的做法是：先用ML模型得到残差和工具变量，然后将这些变量代入一个简单的IV回归模型（如ivreg或gmm），并在这个回归中指定聚类变量。切勿直接使用ML模型输出的、未经聚类的标准误。
样本权重：调查数据通常带有抽样权重。在估计条件期望E[Y|X]等时，需要确保ML算法支持样本权重。例如，sklearn的RandomForestRegressor有sample_weight参数，xgboost也支持权重。忽略权重会导致估计有偏，代表不了总体。
交叉拟合的实现：手动实现交叉拟合容易出错。建议使用现成的库，如Python的EconML（微软）或DoubleML（R/Python）。这些库经过良好测试，能正确处理样本分割、模型训练和结果聚合。例如，在DoubleML中，可以相对轻松地定义模型和数据，并指定使用CML所需的特殊评分函数。

6. 常见问题、调试与进阶思考

在实际操作中，你肯定会遇到各种问题。以下是我踩过的一些坑及其排查思路。

6.1 估计值不稳定或标准误过大

可能原因1：工具变量弱。检查第一阶段F统计量（在传统2SLS中）或E[D̃ * κ̂]的值是否接近于0。如果工具变量很弱，任何IV估计都会不稳定。CML虽然对识别条件要求稍宽，但工具变量仍需有一定预测力。
- 诊断：可视化p̂(Z,X)的分布，看其在不同Z下的差异。计算κ̂的样本方差。
- 解决：考虑寻找更强的工具变量，或使用对弱工具更稳健的方法（如有限信息最大似然LIML，但在ML-IV框架下结合使用需谨慎）。
可能原因2：样本量太小或交叉拟合折数K太大。K太大意味着每份用于训练辅助模型的数据量变小，导致第一阶段ML模型估计不准，方差增大。
- 诊断：尝试减少K（如从10减到5），观察估计值及其标准误的变化是否剧烈。
- 解决：对于小样本（如n<1000），建议使用K=2或K=3。也可以尝试使用“重复交叉拟合”来稳定结果。
可能原因3：ML模型过拟合或欠拟合。
- 诊断：检查辅助模型（E[Y|X],E[D|X],E[D|Z,X]）在训练集和验证集上的表现。如果训练集R²很高但验证集很低，可能是过拟合。如果两者都很低，可能是欠拟合或模型设定不当。
- 解决：对ML模型进行适当的正则化（如调整LASSO的惩罚系数、随机森林的max_depth、神经网络的dropout率）。使用交叉验证来选择超参数。记住，我们的目标不是预测的绝对精度，而是获得一致的条件期望估计。适度的正则化通常比追求极致预测更有益于最终的因果估计。

6.2 与简单2SLS结果差异巨大

可能原因1：非线性与交互效应。如果真实的数据生成过程中存在重要的非线性或交互项，而2SLS使用的是线性模型，那么2SLS的估计可能是有偏的。CML/DML使用的ML模型能够捕捉这些复杂模式。
- 诊断：使用部分依赖图（PDP）或累积局部效应（ALE）图来可视化ML模型学到的E[D|Z,X]与Z、X的关系，看是否存在明显的非线性。
- 解决：这是ML-IV的优势所在。差异巨大可能恰恰说明了传统方法的局限。但需谨慎检查ML模型是否捕捉到了有意义的模式，而非噪音。
可能原因2：第一阶段模型设定错误。即使是ML模型，如果输入的特征（X）遗漏了关键变量，或者Z与X的关系被严重误设，估计也会有问题。
- 诊断：进行敏感性分析。尝试纳入更多可能的协变量X，或者尝试不同的ML模型架构，观察估计结果是否稳定。
- 解决：基于领域知识，尽可能全面地收集和控制相关协变量。对于工具变量Z，确保其排他性约束在理论上站得住脚。

6.3 计算效率与软件选择

挑战：交叉拟合意味着需要训练K倍的ML模型。对于大数据集或复杂模型（如深度神经网络），计算成本可能很高。
解决方案：
1. 并行化：K折交叉拟合天然适合并行计算。每一折的训练是独立的，可以分配到不同的CPU核心或机器上同时进行。
2. 使用高效库：EconML和DoubleML都内置了并行支持。在Python中，可以利用joblib库。
3. 模型简化：对于超高维数据，可以先使用LASSO进行变量筛选，再用筛选后的变量训练更复杂的模型（如随机森林），以降低计算负担。
4. 增量/在线学习：对于超大数据集，可以考虑使用支持在线学习的ML模型。

6.4 如何报告与解释结果

透明报告：必须详细报告所使用的ML方法（如随机森林的树数量、最大深度）、交叉拟合折数K、是否使用了聚类标准误和样本权重。
敏感性分析：展示不同ML方法（RF vs NN）、不同超参数设置、不同K值下的估计结果。如果结果稳健，能极大增强结论的可信度。
解释谨慎性：始终牢记，CML估计的仍然是LATE，即“依从者”的平均处理效应。需要结合具体情境描述“依从者”是谁（在OHIE中，就是那些因为被抽中而更可能参保的人）。不要将其外推到全人群。

7. 总结与展望

通过这次对CML估计器的深入探索，我最大的体会是，机器学习为因果推断带来了新的活力，但绝非简单的“即插即用”。CML的精妙之处在于，它没有停留在用黑箱模型替代线性回归，而是从矩条件的设计入手，构建了一个能与ML兼容、且具备良好理论性质（正交性、更弱的单调性要求）的估计框架。

它的优势在模拟和实证中都得到了体现：在传统IV识别条件边缘时更稳健，对第一阶段ML模型的选择更不敏感，并能提供更精确的估计。当然，它也有代价，主要是需要估计更多的条件期望函数（E[D|Z,X]），计算更复杂，并且对样本量要求可能更高。

未来，这个方向还有不少值得探索的地方。例如，如何将CML的思想扩展到处理异质性处理效应（HTE）的估计中？如何与最新的ML架构（如Transformer用于结构化数据）更高效地结合？如何处理存在多个工具变量或多个处理变量的情形？

对于实践者而言，我的建议是：从简单开始。先跑通一个标准的2SLS作为基准。然后，尝试使用DoubleML或EconML这样的成熟库来实现DML。当你对流程熟悉后，再尝试自定义评分函数来实现CML，并与DML结果进行对比。如果结果差异很大，深入挖掘原因——这往往能让你对数据生成过程有更深刻的理解。

因果推断的路上没有银弹，但像CML这样将严谨的经济计量理论与灵活的机器学习工具相结合的方法，无疑为我们提供了更强大、更稳健的武器。关键在于理解其背后的假设和原理，并在实践中保持谨慎和透明。

查看全文

http://www.jsqmd.com/news/877146/