当前位置：首页 > news >正文

条件矩约束模型中的局部稳健推断与正交工具变量应用

news 2026/7/13 1:17:46

1. 条件矩约束模型：从核心挑战到稳健推断的桥梁

在实证研究的工具箱里，条件矩约束模型（Conditional Moment Restrictions, CMRs）无疑是一把瑞士军刀。无论是评估一项政策对经济产出的影响，还是分析用户特征如何影响其购买决策，我们常常会写下这样一个核心假设：在给定某些可观测变量（比如个体的教育背景、市场环境）的条件下，模型残差的期望为零。这个看似简单的等式E[ρ(Y,θ,η)|W]=0，构成了从线性回归、分位数回归到复杂的结构模型等诸多计量方法的基石。它告诉我们，一旦我们控制了W，模型剩下的不可解释部分应该是随机的，与任何已知信息都不相关。

然而，当模型变得复杂，特别是当我们引入机器学习来灵活估计那些无限维的“讨厌参数”时，这把瑞士军刀用起来就可能有点扎手。想象一下，你想研究在线广告的点击率如何影响最终购买，除了我们关心的广告曝光系数，用户潜在的、难以观测的购买倾向也是一个关键因素。我们用复杂的神经网络去拟合这个倾向，但神经网络的拟合本身是有偏的——它为了在有限数据下获得良好的预测，必须在偏差和方差之间做权衡。问题在于，这个第一步估计的偏差，并不会乖乖留在原地，它会像多米诺骨牌一样，传导到第二步我们对广告效应这个核心参数的估计上。结果就是，你算出的标准误可能不再可靠，基于它构建的95%置信区间，其真实覆盖率可能远低于95%，导致我们可能错误地宣称一个无效的广告策略是成功的。这正是Chernozhukov等学者在2022年论文中明确指出的一类“因果推断危机”：第一步的机器学习估计偏差，会破坏第二步参数估计的√n一致性和渐近正态性，让标准统计推断失效。

面对这个挑战，局部稳健矩技术应运而生，它就像给我们的瑞士军刀加装了一个精密的防抖装置。其核心思想是构造一种特殊的矩条件，它对第一步讨厌参数估计中的微小偏差“不敏感”。更具体地说，我们寻找一个函数g(Z,θ,η)，使得即使我们对η的估计\hat{η}有偏差，只要这个偏差收敛得足够快，基于g(Z,θ,\hat{η})来估计θ所引入的额外偏差是高阶小量，从而不影响θ估计量的中心极限定理。实现这一点的关键，在于使用正交工具变量。它不是随便拿来的工具变量，而是经过“中心化”处理的——给定预处理变量X，它的条件期望为零。这种构造方式，在数学上等价于让矩条件关于讨厌参数的路径方向导数在某个子空间上投影为零，从而切断了偏差传导的路径。

2. 正交工具变量的构造与存在性：理论基石

要理解正交工具变量如何发挥作用，我们需要深入到模型的正交补空间和黎兹表示定理的数学世界里走一趟。不过别担心，我们可以用更直观的工程类比来理解。

2.1 局部稳健性的数学刻画

假设我们的参数兴趣是ψ(λ)，其中λ=(θ,η)包含了有限维参数θ和无限维讨厌参数η。一个基于矩条件E[g(Z,λ)]=0的估计量，要具备局部稳健性，需要满足一个关键条件：该矩条件关于λ在真实值λ0处的 Gateaux 导数，在那些只改变η而不改变ψ(λ)的“扰动方向”上为零。用公式表达，即对于所有满足⟨h, r_ψ⟩_H = 0的扰动h（r_ψ是兴趣泛函ψ的黎兹表示子），都有：

d/dτ E[g(Z, λ_τ)]|_(τ=0) = 0

这意味着，如果我们沿着不改变目标参数θ的方向微调模型，矩条件的期望值不会发生一阶变化。因此，即使我们对η的估计有偏差，只要这个偏差的方向大致落在这些“无害”的扰动方向上，它对θ估计的影响就是高阶的。

2.2 正交工具变量的通用构造

那么，什么样的矩函数g能满足上述要求呢？理论给出了一个清晰的刻画。对于形如E[ρ_j(Y,θ,η)|W_j]=0的条件矩约束模型，所有局部稳健矩都具有以下形式：

g(Z,θ,η,κ) = Σ_j ρ_j(Z,θ,η) * κ_j(W_j)

其中，κ_j(W_j)就是我们要找的正交工具变量。它不是一个标量，而是一个函数。它必须满足一个正交性条件：对于所有满足⟨h, r_ψ⟩_H = 0的扰动h，有

Σ_j E[ ∇m_j(W_j,θ,η)[h] * κ_j(W_j) ] = 0

这里∇m_j是矩条件m_j = E[ρ_j|W_j]关于参数λ的 Fréchet 导数。这个条件意味着，工具变量κ必须与矩条件在“无害扰动”方向上的导数空间正交。

注意：这里存在一个关键的“存在性”问题。如果“无害扰动”方向上的导数空间V_{r_ψ}^⊥在整个工具变量函数空间L^2(W)中是稠密的，那么唯一能与所有导数正交的函数只能是零函数。这意味着不存在非平凡的局部稳健矩。在实践中，这通常要求工具变量Z1必须提供超出协变量X之外的新信息（即Z1不是X的函数），否则模型可能无法识别。

2.3 从正交到相关：ORR-IVs

满足了正交性，只是保证了估计量对偏差不敏感（即具有“鲁棒性”）。但一个好的工具变量还必须“相关”，即它必须能有效识别我们的参数。一个正交但不相关的工具变量，就像一把不会震动的钝刀，安全但无用。

具体来说，对于参数θ，一个相关的正交工具变量κ必须满足：

E[ (D - E[D|X]) * κ(Z1, X) ] ≠ 0

这个条件直观上很容易理解：D - E[D|X]是处理变量D中无法由X解释的部分（即“净处理”），而κ是我们的工具变量。这个条件要求工具变量与“净处理”相关，这正是工具变量法中最基本的相关性条件。我们将同时满足正交性和相关性的工具变量称为正交相关工具变量。

3. 应用核心：存在内生性的部分线性模型

理论可能有些抽象，让我们将其落地到一个经济学和众多社会科学中最常用的模型——存在内生性的部分线性模型。

3.1 模型设定与识别挑战

假设我们关心处理变量D（例如，是否参加职业培训）对结果变量Y（例如，年末收入）的因果效应θ0。模型设定如下：

Y = θ0 * D + φ(X) + ε, E[ε | Z1, X] = 0

其中，φ(X)是协变量X（如年龄、教育年限）的非参数函数，Z1是一个工具变量（例如，随机分配的培训邀请），它满足：与ε不相关（外生性），但通过影响D来间接影响Y（相关性）。D可能是内生的，即Cov(D, ε) ≠ 0，这可能是由于自选择、遗漏变量等原因造成的。

通过对X进行“部分线性”处理，即定义Ÿ = Y - E[Y|X]和Ḋ = D - E[D|X]，模型可简化为：

Ÿ = θ0 * Ḋ + ε, E[ε | Z1, X] = 0

这导出了一个干净的条件矩约束：E[ Ÿ - θ0Ḋ | Z1, X ] = 0。

3.2 构建该模型的局部稳健矩

根据第2节的一般理论，我们可以直接套用公式。在这个模型中，讨厌参数η = (E[Y|X], E[D|X])。经过推导，该模型的所有局部稳健矩都具有如下形式：

g(Z, θ0, η0, κ0) = (Ÿ - θ0Ḋ) * κ0(Z1, X)

其中，正交工具变量κ0必须满足一个关键性质：

κ0(Z1, X) = ξ(Z1, X) - E[ξ(Z1, X) | X]

也就是说，κ0是某个原始函数ξ(Z1, X)减去其以X为条件的期望。这一步“中心化”操作至关重要，它确保了E[κ0(Z1,X) | X] = 0，从而满足了正交性条件。这个构造与 Borusyak and Hull (2020) 中为减少估计偏差而提出的工具变量中心化思想不谋而合。

3.3 正交相关工具变量的具体选择

现在，我们面临无数可能的选择：任何ξ(Z1, X)函数都可以生成一个正交工具变量κ0。例如，选择ξ(Z1, X) = Z1，我们就得到了 Chernozhukov et al. (2018) 的双重去偏机器学习估计量所使用的矩条件。

但哪一个是最好的呢？我们需要相关性。根据第2.3节，相关性要求E[Ḋ * κ0] ≠ 0。将κ0的表达式代入，并利用迭代期望定律，这个条件等价于：

E[ (E[D|Z1,X] - E[D|X]) * ξ(Z1,X) ] ≠ 0

这指引我们找到一个能保证相关性的ξ的构造方法。一个非常重要且实用的选择是：

ξ*(Z1, X) = E[D | Z1, X] - E[D | X]

这个选择具有非常直观的经济学含义：E[D|Z1,X] - E[D|X]衡量的是，在控制了X之后，工具变量Z1对处理变量D的边际影响。它直接反映了工具变量的“强度”或“合规倾向”。由此构造的正交工具变量为：

由于内层期望已关于X取条件，第二项实际上就是其自身，因此最终简化为：

κ0*(Z1, X) = E[D | Z1, X] - E[D | X]

实操心得：这个选择ξ*的美妙之处在于，它自动满足了相关性条件，只要工具变量是相关的（即E[D|Z1,X] ≠ E[D|X]）。更重要的是，在后续我们将看到，由它定义的估计量具有非常良好的因果解释。在实践中，这意味着我们需要用机器学习方法去估计两个条件期望函数：E[D|Z1,X]和E[D|X]。

4. 合规机器学习估计量：理论、实现与解释

基于上述最优的正交相关工具变量选择，我们可以定义一个极具应用价值的估计量——合规机器学习估计量。

4.1 CML估计量的构造与概率极限

CML估计量θ̂_CML是以下样本矩条件的解：

(1/n) Σ_i (Ÿ_i - θ Ḋ_i) * κ̂_i = 0

其中，κ̂_i = Ê[D_i | Z1_i, X_i] - Ê[D_i | X_i]，这里的帽子表示使用机器学习方法（如随机森林、梯度提升、神经网络等）估计得到的条件期望。

在正则性条件下，θ̂_CML的概率极限θ*为：

θ* = E[ Ÿ * κ0* ] / E[ Ḋ * κ0* ] = E[ Ÿ * (E[D|Z1,X] - E[D|X]) ] / E[ Ḋ * (E[D|Z1,X] - E[D|X]) ]

这个表达式看起来像一个两阶段最小二乘的总体版本。事实上，它可以被重新表述为：

θ* = E[ ω(Z1,X) * β_LATE(X) ]

其中，β_LATE(X) = (E[Y|Z1=1,X] - E[Y|Z1=0,X]) / (E[D|Z1=1,X] - E[D|Z1=0,X])是给定协变量X下的条件局部平均处理效应。而权重函数ω(Z1,X)由下式给出：

ω(Z1,X) = (E[D|Z1,X] - E[D|X])^2 / E[ (E[D|Z1,X] - E[D|X])^2 ]

4.2 非参数因果解释与权重非负性

上述表述揭示了CML估计量概率极限的深刻因果内涵：它是一个以条件LATE为单位的加权平均。这解决了传统IV估计量（如直接使用Z1作为工具变量）长期存在的一个解释难题。

在二元处理D和二元工具变量Z1的经典LATE框架下，Imbens和Angrist（1994）指出，IV估计量识别的是“合规者”的平均处理效应。然而，当存在协变量X时，如果直接使用Z1作为工具变量且不进行充分的非参数控制，估计量可能表示为各X取值下条件LATE的加权和，但权重可能为负。负权重使得估计结果难以解释，它可能不是任何子群体处理效应的合理平均值。

CML估计量通过其构造自动避免了这个问题。因为权重ω(Z1,X)的分子是(E[D|Z1,X] - E[D|X])^2，这是一个非负量。因此，所有权重都是非负的，并且加总为1。这意味着θ*确实是所有条件LATE的一个凸组合，从而获得了清晰的非参数因果解释：它代表了由工具变量Z1所驱动的处理变化所对应的局部平均处理效应的（加权）平均值。

注意事项：这个美好的性质依赖于一个比全局单调性更弱的假设——条件单调性。即在每个协变量X的取值水平上，不存在“反抗者”（即那些工具变量鼓励其接受处理时反而不接受，不鼓励时反而接受的人）。如果存在反抗者，即使使用CML，权重仍可能为负。在实践中，条件单调性通常比全局单调性更合理。

4.3 实现步骤与交叉拟合

CML估计量的实现可以分解为清晰的步骤，并强烈推荐使用交叉拟合来避免过拟合导致的偏差。

步骤1：数据准备与样本分割将样本随机划分为K份（通常K=5或10）。定义I_k为第k份数据的索引集，I_{-k}为除第k份外所有数据的索引集。

步骤2：第一阶段非参数估计（循环进行）对于每一折k=1,...,K：

使用样本I_{-k}训练两个机器学习模型：
- 模型M1:预测E[D | Z1, X]。以(Z1, X)为特征，D为标签。
- 模型M2:预测E[D | X]。以X为特征，D为标签。
- 模型M3:预测E[Y | X]。以X为特征，Y为标签。（用于构造Ÿ）
使用训练好的模型M1和M2，对样本I_k中的每个观测i进行预测：
- ĝ_i(Z1_i, X_i) = M1.predict(Z1_i, X_i)
- m̂_i(X_i) = M2.predict(X_i)
- 计算正交工具变量：κ̂_i = ĝ_i(Z1_i, X_i) - m̂_i(X_i)
使用模型M3对样本I_k预测E[Y|X]，并计算：
- Ÿ_i = Y_i - M3.predict(X_i)
- Ḋ_i = D_i - m̂_i(X_i)

步骤3：第二步参数估计收集所有K折数据计算出的(Ÿ_i, Ḋ_i, κ̂_i)。通过求解以下一维方程得到θ̂_CML：Σ_i (Ÿ_i - θ̂_CML * Ḋ_i) * κ̂_i = 0这等价于一个简单的IV估计：θ̂_CML = (Σ_i Ÿ_i * κ̂_i) / (Σ_i Ḋ_i * κ̂_i)

步骤4：方差估计（推荐使用稳健标准误）由于使用了第一步的预测值，误差项可能存在异方差。建议使用异方差稳健的Huber-White标准误公式进行方差估计：Var(θ̂_CML) ≈ (1/n) * (Â⁻¹ * B̂ * Â⁻¹)其中，

Â = (1/n) Σ_i Ḋ_i * κ̂_i
B̂ = (1/n) Σ_i [κ̂_i * (Ÿ_i - θ̂_CML * Ḋ_i)]²

核心技巧：交叉拟合的必要性：绝对禁止使用同一份数据既做模型训练又做预测来构造κ̂_i、Ÿ_i和Ḋ_i。机器学习模型倾向于过度拟合样本内数据，这会导致预测残差(Ÿ_i - θ Ḋ_i)与预测值κ̂_i之间产生人为的（虚假的）相关性，严重偏向于0，从而使得估计量θ̂_CML产生巨大的偏差。交叉拟合通过“样本分割”和“样本外预测”有效切断了这种过拟合带来的内生性，是保证估计量√n一致性和渐近正态性的关键。

5. 与主流方法的对比与蒙特卡洛证据

CML并非孤立的发明，它与文献中多个重要估计量存在深刻联系。理解这些联系有助于我们把握其独特优势。

5.1 与双重去偏机器学习的比较

Chernozhukov et al. (2018) 提出的DML估计量，在PLME模型下对应的正交工具变量选择是κ_DML = Z1 - E[Z1|X]。这与CML的κ_CML = E[D|Z1,X] - E[D|X]形成对比。

理论联系：κ_CML实际上是κ_DML在L²空间上向E[D|Z1,X]方向投影的结果。当工具变量Z1对D的影响是线性的且同方差时，两者渐近等价。但在更一般的非线性、异方差设定下，κ_CML利用了Z1对D的全部预测信息，而κ_DML只利用了Z1本身。
效率与相关性：κ_CML通常与内生变量Ḋ有更强的相关性，因为它直接捕捉了工具变量的“合规倾向”（Compliance Propensity）。在蒙特卡洛模拟中，这常常转化为CML估计量比DML具有更小的有限样本方差和更准确的覆盖率。
因果解释：如前所述，κ_CML导出的估计量具有条件LATE凸组合的清晰解释，且权重非负。而基于κ_DML的估计量，其权重可能为负，因果解释模糊。

5.2 与饱和模型2SLS及Kolesár估计量的关系

Angrist和Imbens（1995）提出，在存在离散协变量时，可以通过在工具变量Z1基础上，进一步加入Z1与X所有取值虚拟变量的交互项来构建工具变量，然后进行2SLS估计。这本质上是为每一个X的取值跑一个独立的第一阶段回归。Kolesár（2013）的留一法无偏估计量也基于类似思想。

CML在本质上是这种饱和模型方法的机器学习实现。饱和模型要求为X的每一个取值（或每一组）估计一个单独的E[D|Z1, X=x]，当X维度高或取值多时，这会导致维度灾难或数据稀疏问题。CML使用机器学习模型（如随机森林、神经网络）来平滑地估计整个函数E[D|Z1,X]，从而优雅地解决了这个问题，同时继承了饱和模型估计量的良好因果解释性质。

5.3 蒙特卡洛模拟中的表现

为了直观展示CML的优势，我们可以构想一个简单的数据生成过程：

协变量X ~ Uniform(0,1)。
二元工具变量Z1 ~ Bernoulli(0.5)。
处理变量D的生成：P(D=1|Z1,X) = Φ(α*Z1 + β*X)，其中Φ是标准正态CDF。α控制工具变量强度，β控制协变量影响。真实处理效应θ0 = 1.0。
结果变量Y = θ0*D + X + ε，其中ε ~ N(0,1)。

我们设置一个具有挑战性的场景：工具变量强度α很小，且E[D|Z1,X] - E[D|X]的符号随X变化（这可能导致传统IV权重为负）。分别用以下方法估计θ0：

传统2SLS：使用Z1和X作为D的回归变量。
DML：使用Z1 - Ê[Z1|X]作为工具变量，用随机森林估计Ê[Z1|X]。
CML：使用Ê[D|Z1,X] - Ê[D|X]作为工具变量，用随机森林估计两个条件期望。

模拟重复1000次，样本量n=1000。结果可能显示：

传统2SLS：由于未对X进行充分非参数控制，且存在负权重问题，估计量偏差较大，置信区间覆盖率严重低于名义水平（如95%）。
DML：偏差得到纠正，但由于工具变量κ_DML与Ḋ的相关性较弱（尤其在α小的区域），估计量的方差较大。
CML：偏差小，方差显著低于DML，置信区间覆盖率最接近名义水平。这是因为κ_CML更有效地利用了Z1的预测信息，与Ḋ的相关性更强。

6. 实证应用复盘：俄勒冈健康保险实验

Finkelstein et al. (2012) 的经典研究评估了医疗 Medicaid 保险对医疗服务使用的影响。由于参保并非完全随机（存在不依从者），他们将随机抽签获得参保资格作为工具变量Z1，实际参保状态为内生处理变量D，结果变量Y包括处方药数量、门诊就诊次数等。

原始研究使用了低维的线性控制变量X。我们应用CML方法，引入更多预处理变量（如更详细的健康史、社会经济指标），并使用随机森林和梯度提升树来估计E[D|Z1,X]和E[D|X]。

关键发现与解读：

效应方向一致，但幅度更大：CML估计确认了 Medicaid 保险显著增加了处方药使用和门诊就诊。然而，CML估计的效应量比原始线性模型结果高出约14%-20%。这可能有几个原因：
- 非线性控制：机器学习更灵活地捕捉了协变量X对D和Y的非线性影响，可能更准确地分离出了工具变量的净效应。
- 异质性处理效应与加权：CML估计的是加权平均的LATE，其权重ω(Z1,X)与合规倾向(E[D|Z1,X]-E[D|X])的平方成正比。这意味着，对于那些工具变量（抽签资格）对其参保决策影响更大的人群（即“边际合规者”），CML赋予了更高的权重。如果处理效应（保险对医疗使用的影响）在这些人群中更强，那么CML估计出的平均效应就会更大。
发现新效应：原始研究未发现保险对急诊室就诊有显著影响。而CML分析在控制了更多变量并使用非线性拟合后，在部分设定下发现了保险对急诊室就诊（无论是是否就诊的广度边际，还是就诊次数的强度边际）有正向影响。这可能是因为更灵活的模型更好地控制了健康风险等混淆因素。
估计精度：在大多数结果指标上，CML给出了比传统2SLS和DML更小的标准误。这是因为κ_CML作为工具变量，与内生变量Ḋ的相关性更强，提高了估计效率。

实操心得与注意事项：
机器学习方法选择：在这个应用中，随机森林和梯度提升树的结果相似，说明结论对具体机器学习算法不敏感。这是一个好迹象，增强了结果的稳健性。建议在实践中尝试1-2种不同的ML方法作为敏感性分析。
协变量选择：纳入的预处理变量X必须是真正的预处理变量，即不受工具变量Z1（抽签）或处理D（参保）影响的变量。通常包括人口学特征、基线健康状况等。
解释的谨慎性：CML估计的效应是“局部”的，即那些因为抽签结果而改变参保决策的人（合规者）的平均处理效应。它不能推广到那些无论抽签结果如何都会参保或都不参保的人。
计算与实现：使用Python的sklearn或R的grf、xgboost等库可以方便地实现第一阶段的机器学习估计。务必使用交叉拟合，并确保在每一步中，用于预测的数据都没有参与对应模型的训练。

7. 常见陷阱、问题排查与扩展思考

在实际操作中，即使理解了原理，也可能遇到各种问题。以下是一些常见陷阱及排查思路。

7.1 工具变量相关性检验失败

问题：在第二步回归中，内生变量Ḋ与构造的工具变量κ̂的F统计量很小（如小于10），提示弱工具变量问题。

排查与解决：

检查第一阶段预测：首先检查Ê[D|Z1,X]和Ê[D|X]的预测效果。绘制Ê[D|Z1,X]对Z1的散点图（按X分组），观察Z1是否对预测值有清晰的影响模式。如果Ê[D|Z1,X]和Ê[D|X]几乎相等，则κ̂ ≈ 0，导致弱工具变量。这可能意味着：
- 工具变量本身很弱：Z1对D的边际影响很小。需要寻找更强的工具变量。
- 模型过拟合或欠拟合：机器学习模型未能有效学习Z1对D的预测关系。尝试调整模型复杂度（如树的最大深度、学习率），或使用不同的ML算法。
- 协变量X吸收了所有解释力：如果X已经能近乎完美预测D，那么Z1的边际贡献就很小。检查D对X的预测R²是否过高。
尝试不同的ξ函数：虽然ξ* = E[D|Z1,X] - E[D|X]在理论上是优选的，但在有限样本下，如果其估计不精确，可以尝试更简单的ξ，如ξ = Z1（即退化为DML），看看相关性是否改善。这可以作为诊断工具。
报告弱工具变量稳健推断：如果相关性确实弱，应使用弱工具变量稳健的推断方法，如 Anderson-Rubin 检验或条件似然比检验，来构建θ的置信区间，而不是依赖基于正态近似的标准误。

7.2 估计量方差过大或不稳定

问题：θ̂_CML的标准误非常大，或者在不同样本分割或随机种子下，估计值波动剧烈。

排查与解决：

检查分母接近零：计算Σ_i Ḋ_i * κ̂_i的值。如果这个值非常接近零，会导致估计量极端不稳定。这是弱工具变量的另一种表现形式，同上处理。
检查交叉拟合的实现：确保交叉拟合正确实施。一个常见的错误是，在计算某折数据的κ̂_i、Ÿ_i、Ḋ_i时，错误地使用了包含该折数据训练的模型。必须严格使用“样本外预测”。
增加折数K：在样本量允许的情况下，增加交叉拟合的折数（如从5折增加到10折），可以减少因为样本分割带来的效率损失，使估计更稳定。
正则化与平滑：用于估计E[D|Z1,X]和E[D|X]的机器学习模型可能过于复杂，导致预测值κ̂_i噪声很大。加强正则化（如增加L2惩罚项、降低树深、提高子采样比例）可以平滑预测，降低κ̂_i的方差，从而可能降低第二步估计的方差。

7.3 与理论预期不符的符号或量级

问题：估计出的θ̂_CML符号与理论预期相反，或量级明显不合理。

排查与解决：

验证外生性假设：CML无法检验工具变量Z1是否真正外生。如果Z1与误差项ε相关（例如，存在同时影响Z1和Y的遗漏变量），估计将是有偏的。这需要基于研究设计和领域知识进行论证。
检查单调性假设：如果存在大量的“反抗者”，CML估计量虽然权重非负，但估计的可能是合规者和反抗者效应的混合，解释复杂。思考在具体应用背景下，条件单调性是否合理。
模型误设：部分线性模型Y = θD + φ(X) + ε可能不正确。例如，处理效应θ本身可能随X变化（异质性处理效应）。在这种情况下，CML估计的是一个加权平均LATE，其解释需要谨慎。可以考虑在模型中引入D与X的交互项，或转向估计条件平均处理效应。
极端值影响：检查Ḋ_i和κ̂_i的分布。是否存在极端值？这些极端值可能对Σ_i Ÿ_i * κ̂_i和Σ_i Ḋ_i * κ̂_i产生过大影响。考虑对连续变量进行缩尾处理，或使用更稳健的估计方程求解方法。

7.4 扩展到更一般的模型

CML的思想可以推广到更一般的条件矩约束模型，不局限于部分线性模型。

分位数处理效应模型：如果关心的是处理对结果分布不同分位数的影响，可以将矩条件改为E[ 1{Y ≤ θD + φ(X)} - τ | Z1, X ] = 0。正交工具变量的构造逻辑类似，但需要估计条件分位数函数，计算更复杂。
非可加性误差项：对于如E[ Y - μ(θD, X) | Z1, X ] = 0的模型，其中μ是非线性函数（如指数函数），正交矩的构造需要计算μ函数关于D的导数，工具变量形式变为κ0* = [∂μ/∂D * (E[D|Z1,X] - E[D|X])]的中心化版本。
多工具变量与过度识别：当有多个工具变量Z1, Z2, ...时，可以构造多个正交工具变量κ0_j，然后使用广义矩方法进行估计。过度识别检验（Hansen’s J test）可以用来检验工具变量的外生性。

局部稳健矩和正交工具变量的框架，为我们安全、可靠地利用机器学习处理高维协变量、进行因果推断提供了坚实的理论基础和实用的操作指南。其核心在于，通过巧妙的矩条件构造，将第一步机器学习估计不可避免的偏差“正交化”，从而保护第二步核心参数估计的统计性质。CML估计量作为该框架在内生性部分线性模型下的一个优美实现，不仅具备良好的统计性质（√n一致性、渐近正态性、对过拟合稳健），还因其清晰的加权LATE解释而具有深厚的经济学内涵。在实际应用中，理解其假设、谨慎实现交叉拟合、并对结果进行多方面的稳健性检查，是发挥其威力的关键。

查看全文

http://www.jsqmd.com/news/879448/