双机器学习:交叉拟合与Neyman正交性如何保障因果推断的统计可靠性
1. 项目概述:当机器学习遇见因果推断
在因果推断和计量经济学的世界里,我们常常面临一个核心矛盾:我们想用最强大的工具——比如随机森林、梯度提升树甚至神经网络——去估计一个我们真正关心的、简单的参数,比如一个政策干预的平均处理效应。这些机器学习模型擅长在高维、非线性的数据海洋中捕捉复杂模式,但它们的“黑箱”属性和过拟合倾向,却会直接污染我们最终估计量的统计性质,导致偏差和无效的置信区间。
大约十年前,这个问题像一座大山横在研究者面前。直到“双机器学习”框架的出现,提供了一条清晰的路径。这个框架的核心,是两大理论基石:交叉拟合和Neyman正交性。我自己在构建异质性处理效应模型或进行政策评估时,无数次依赖这两个工具来保证结果的可靠性。简单来说,交叉拟合解决了“数据怎么用”的问题,确保我们的估计步骤是干净的;而Neyman正交性解决了“模型误差怎么处理”的问题,确保最终估计量对第一阶段的机器学习误差不敏感。本文要深入探讨的,正是当这两者结合时,我们如何从理论上严格推导出估计量的行为,特别是其方差如何构成,以及为什么我们能放心地做统计推断。
2. 核心概念与问题背景解析
2.1 交叉拟合:打破依赖性的艺术
交叉拟合的根本目的,是打破由“用同一样本进行模型训练和参数估计”所引入的数据依赖性。传统两步法(先在所有数据上拟合模型,再用该模型进行估计)会导致一个严重问题:用于估计目标参数的每个数据点,其拟合值都依赖于整个样本。这种复杂的、全局的依赖性使得中心极限定理失效,标准误的估计变得极其困难。
交叉拟合的实操通常采用K折(K-fold)方式:
- 将全部n个样本随机划分为K个大小近似相等的子集(折)。
- 对于第k折,使用除第k折外的所有其他数据训练机器学习模型,得到模型估计量 $\hat{\eta}^{(-k)}(\cdot)$。
- 将第k折的数据输入这个训练好的模型,得到该折样本的预测值 $\hat{\eta}_i = \hat{\eta}^{(-k)}(X_i)$,其中 $i$ 属于第k折。
- 对所有K折重复步骤2和3,最终每个数据点都获得一个“样本外”预测值。
注意:这里的K选择有讲究。理论上,K可以随n增大而增大(例如 $K = \sqrt{n}$)。实践中,常用5折或10折。K越大,每折样本量越小,用于训练的数据越多,但计算成本也越高。一个经验法则是,确保每折的样本量 $n_k$ 足够大,以使中心极限定理在折内生效。
这样操作后,用于最终估计的预测值 $\hat{\eta}_i$ 与其对应的观测值 $W_i = (Y_i, X_i)$ 之间的依赖关系被极大地削弱了。因为 $\hat{\eta}_i$ 的训练过程完全没用上 $W_i$ 的信息。这种“样本分割”技术为后续的理论分析铺平了道路,使得估计量 $\hat{\theta}$ 可以表示为一系列近似独立项的和,从而满足中心极限定理的条件。
2.2 Neyman正交性:构造对 nuisance parameter 误差稳健的矩条件
我们关心的目标参数 $\theta_0$(如ATE)通常通过一个矩条件来定义:$E[\psi(W; \theta_0, \eta_0)] = 0$。其中,$\psi$ 是得分函数,$\eta_0$ 是一个可能无限维的nuisance parameter(讨厌参数),比如条件均值函数 $E[Y|X]$ 或倾向得分 $P(D=1|X)$。问题在于,我们只能用估计量 $\hat{\eta}$ 来代替 $\eta_0$。
如果直接解 $E_n[\psi(W; \theta, \hat{\eta})] = 0$ 来估计 $\theta$,那么 $\hat{\eta}$ 的估计误差会以非线性的、有害的方式传递到 $\hat{\theta}$ 上,导致 $\hat{\theta}$ 的收敛速度慢于 $\sqrt{n}$,并且其分布难以刻画。
Neyman正交性的精妙之处在于,它要求我们构造(或寻找)一个特殊的得分函数 $\psi$,使得该函数在真实值 $(\theta_0, \eta_0)$ 处对 nuisance parameter $\eta$ 的路径方向导数(即 Gateaux 导数)为零。用数学语言表达就是: $$ \partial_{\eta} E[\psi(W; \theta_0, \eta_0)][\eta - \eta_0] = 0 $$ 对于所有 $\eta$ 在 $\eta_0$ 的某个邻域内成立。其中 $\partial_{\eta}$ 表示方向导数。
这是什么意思?直观上,这表示当 $\eta$ 在 $\eta_0$ 附近发生微小扰动时,矩条件 $E[\psi]$ 的一阶变化为零。因此,当我们用 $\hat{\eta}$(一个在 $\eta_0$ 附近的估计量)代替 $\eta_0$ 时,由此引入的一阶偏差被“免疫”掉了。最终 $\hat{\theta}$ 的误差主要来自 $\psi$ 函数本身的随机波动,以及 $\hat{\eta}$ 误差的二阶项。只要 $\hat{\eta}$ 的收敛速度足够快(通常快于 $n^{-1/4}$),二阶项就是 $o_p(n^{-1/2})$,从而保证了 $\hat{\theta}$ 仍能以 $\sqrt{n}$ 的速率收敛,并且渐近正态。
2.3 双机器学习框架:两大支柱的协同
双机器学习框架将交叉拟合和Neyman正交性无缝结合:
- 第一步:交叉拟合估计 nuisance parameters。使用交叉拟合技术,获得对 $\eta_0$ 的稳健估计 $\hat{\eta}_i$。
- 第二步:基于正交矩条件估计目标参数。利用Neyman正交的得分函数 $\psi$,将 $\hat{\eta}_i$ 代入,通过求解样本矩条件(如GMM)来估计 $\theta_0$。
这个流程确保了:
- 偏差可控:交叉拟合避免了过拟合带来的内部依赖性偏差;Neyman正交性免疫了一阶偏差。
- 方差可估计:由于依赖结构被简化,估计量 $\hat{\theta}$ 的渐近方差可以推导为一个明确的表达式 $V = J_0^{-2} Var[m(W; \theta_0, \eta_0)]$,其中 $J_0 = E[\partial_{\theta} \psi]$,$m$ 是 $\psi$ 的某个线性化部分。这使得构造置信区间成为可能。
3. 理论核心:估计量的高阶展开与收敛速率分析
项目正文中的数学推导,正是为了严格证明在上述框架下,估计量 $\hat{\theta}$ 的标准化误差 $n^{1/2}(\hat{\theta} - \theta_0)$ 如何渐近地表现为一个正态分布。其核心是将 $\hat{\theta} - \theta_0$ 进行高阶展开,并逐项分析其收敛速率。这是理解其方差构成的关键。
3.1 展开式的结构
基于Neyman正交性和交叉拟合,估计误差可以系统地展开为: $$ n^{1/2}(\hat{\theta} - \theta_0) = \underbrace{T_n^l}{\text{线性项}} + \underbrace{T_n^{nl}}{\text{非线性项}} + \underbrace{R_n}_{\text{高阶余项}} $$ 其中:
- 线性项 $T_n^l$:这是主导项,形式为 $n^{-1/2} \sum_{i=1}^n m(W_i; \theta_0, \eta_0)$。它本质上是样本均值的标准化和,因此直接服从中心极限定理,贡献了渐近正态分布的主体部分。其方差为 $\sigma^2 = Var[m(W_i)]$。
- 非线性项 $T_n^{nl}$:这来源于 $\hat{\eta}$ 的估计误差 $\Delta_i = \hat{\eta}i - \eta_i$ 的二次型。具体形式可能包含 $\Delta_i^T H_i \Delta_i$ 等,其中 $H_i$ 是Hessian矩阵 $\partial{\eta\eta} \psi$ 的期望。这一项反映了二阶偏差。
- 高阶余项 $R_n$:包含了 $\Delta_i$ 的三次及以上的项,在 $\hat{\eta}$ 收敛足够快时,这一项是 $o_p(n^{-1/2})$,可以忽略。
3.2 收敛速率的关键假设与推导逻辑
正文中的证明(如Proposition C.5, Lemma C.2等)依赖于一组精密的假设(Assumption 3.1, 3.2),这些假设量化了 $\hat{\eta}$ 的估计精度和矩条件 $\psi$ 的光滑性。
Nuisance Parameter的收敛速率:假设 $\hat{\eta}$ 的误差可以分解为 $\Delta_i = \Delta_i^l + \Delta_i^b + \hat{R}_i$。
- $\Delta_i^l = n_0^{-\phi_1} n_0^{-1/2} \sum_{j \notin I_k} \delta(W_j, X_i)$ 是一个“线性”波动项,其阶为 $O_p(n^{-\phi_1})$。$\phi_1$ 刻画了机器学习模型在 $L^2$ 范数下的收敛速率。
- $\Delta_i^b = n_0^{-\phi_2} n_0^{-1} \sum_{j \notin I_k} b(X_j, X_i)$ 是一个“偏差”项,其阶为 $O_p(n^{-\phi_2})$,通常 $\phi_2 \ge \phi_1$。
- $\hat{R}_i$ 是更高阶的余项。 关键要求是 $\min(\phi_1, \phi_2) > 1/4$。这意味着 $\hat{\eta}$ 的收敛速率必须快于 $n^{-1/4}$。这是Neyman正交性发挥作用的“门槛速率”。如果模型收敛太慢(如仅达到 $n^{-1/5}$),则二阶项 $T_n^{nl}$ 可能不退火,破坏 $\sqrt{n}$ 一致性。
矩条件的光滑性与有界矩:假设 $\psi$ 关于 $\eta$ 足够光滑(如三阶连续可微),且其导数($\partial_\eta \psi$, $\partial_{\eta\eta} \psi$)具有有界的高阶矩。这保证了泰勒展开的有效性,并且可以控制展开式中各项的大小。
正交性条件:这是Neyman正交性的数学表述,即 $E[\partial_\eta \psi(W_i, \eta_0) | X_i] = 0$。在证明中,这个条件被反复用来抵消交叉项。例如,在计算 $E[T_n^l T_n^{nl}]$ 时,许多项的期望为零,正是因为 $\partial_\eta \psi$ 的条件期望为零,从而与 $\Delta_i$ 中的某些成分独立。
推导的核心挑战在于管理由交叉拟合引入的复杂依赖结构。虽然 $\hat{\eta}_i$ 与 $W_i$ 独立,但不同的 $\hat{\eta}_i$ 和 $\hat{\eta}_j$ 可能依赖于重叠的训练数据。证明通过巧妙的指标拆分(Case 1, 2, 3, 4,如正文所示),利用样本的独立同分布性质和正交性条件,逐一分析各项的阶。
- Case 1:所有指标都不同,期望通常为零。
- Case 2:有两个指标相同,这会产生一个主要贡献项。
- Case 3 & 4:有三个或四个指标相同,这些项通常被证明是更高阶的小量 $o(n^{-\zeta})$。
通过这种细致的组合分析,最终证明:
- $T_n^l$ 的方差是 $O(1)$ 量级,主导分布。
- $T_n^{nl}$ 的方差是 $O(n^{1-2\phi_1-2\phi_2})$ 量级。由于 $\phi_1, \phi_2 > 1/4$,此项为 $o(1)$,即不会主导极限分布,但可能影响有限样本下的方差。
- $R_n$ 是 $o_p(n^{-1/2})$。
因此,$n^{1/2}(\hat{\theta} - \theta_0) \overset{d}{\to} N(0, \sigma^2)$,其中 $\sigma^2 = J_0^{-2} Var[m(W_i)]$。
3.3 方差估计的实操含义
理论推导不仅证明了正态性,更给出了方差的明确表达式: $$ \hat{V} = \hat{J}n^{-2} \cdot \frac{1}{n} \sum{i=1}^n [\hat{m}i - \bar{\hat{m}}]^2 $$ 其中 $\hat{J}n = \frac{1}{n}\sum{i=1}^n \partial\theta \psi(W_i; \hat{\theta}, \hat{\eta}_i)$,$\hat{m}_i = \psi(W_i; \hat{\theta}, \hat{\eta}_i)$。
实操心得:在实际计算中,$\hat{J}_n$ 通常通过数值微分或直接解析求导得到。方差估计 $\hat{V}$ 的有效性高度依赖于Neyman正交性的满足以及交叉拟合的正确实施。如果正交性条件不成立(例如,使用了非正交的得分函数),那么 $\hat{m}_i$ 中将包含与 $\Delta_i$ 相关的一阶偏差,导致 $\hat{V}$ 严重低估真实方差,置信区间覆盖不足。
4. 实操指南:实现稳健的双机器学习估计
理论是严苛的,但落地时需要清晰的步骤和注意事项。以下是一个基于交叉拟合和Neyman正交性的标准操作流程。
4.1 步骤一:定义目标参数与正交得分函数
首先,明确你的因果参数。以部分线性回归模型为例: $$ Y_i = D_i \theta_0 + g_0(X_i) + \epsilon_i, \quad E[\epsilon_i | D_i, X_i] = 0 $$ $$ D_i = m_0(X_i) + \nu_i, \quad E[\nu_i | X_i] = 0 $$ 目标:估计处理效应 $\theta_0$。
构造Neyman正交得分函数。对于部分线性模型,一个标准的正交得分函数为: $$ \psi(W; \theta, \eta) = [Y - l(X) - \theta (D - m(X))] \cdot (D - m(X)) $$ 其中,讨厌参数 $\eta = (l(\cdot), m(\cdot))$,$l(x) = E[Y|X=x]$,$m(x) = E[D|X=x]$。可以验证,该得分函数在 $(\theta_0, \eta_0)$ 处对 $l$ 和 $m$ 的路径方向导数为零。
4.2 步骤二:数据准备与交叉拟合分割
- 将数据集随机打乱。
- 进行K折分割(例如,K=5)。确保分割是随机的,以保持样本的独立同分布假设。
- 为每一折 $k$,定义其训练集(所有其他折)和估计集(第k折本身)。
4.3 步骤三:第一阶段——估计Nuisance Parameters
对于每一折 $k=1,...,K$:
- 使用训练集数据,分别训练两个机器学习模型:
- 模型 $\hat{m}^{(-k)}(\cdot)$:以 $X$ 为特征,预测 $D$(处理变量)。
- 模型 $\hat{l}^{(-k)}(\cdot)$:以 $X$ 为特征,预测 $Y$(结果变量)。
- 将估计集(第k折)的协变量 $X_i$ 输入这两个训练好的模型,得到样本外预测:
- $\hat{m}_i = \hat{m}^{(-k)}(X_i)$
- $\hat{l}_i = \hat{l}^{(-k)}(X_i)$
- 计算“残差”:
- $\tilde{D}_i = D_i - \hat{m}_i$
- $\tilde{Y}_i = Y_i - \hat{l}_i$
模型选择建议:
- 弹性网络 (Elastic Net):适用于高维线性或近似线性关系,具有变量选择功能。
- 梯度提升树 (Gradient Boosting Trees, 如 XGBoost, LightGBM):能捕捉复杂的非线性交互效应,对异常值相对稳健,是当前实践中的主流选择。
- 随机森林 (Random Forest):同样擅长非线性关系,并提供变量重要性度量,但计算量通常大于提升树。
- 神经网络:对于极其复杂的数据结构(如图像、文本)有优势,但需要大量数据且调参复杂。
关键注意事项:第一阶段模型的目标是预测精度,而非因果解释。应使用交叉验证在训练集上选择超参数,以最小化预测误差(如均方误差)。避免在估计集上进行任何模型选择或调参,以防信息泄露。
4.4 步骤四:第二阶段——估计目标参数
收集所有折的样本外预测和残差后,整个数据集现在有了 ${\tilde{Y}i, \tilde{D}i}{i=1}^n$。目标参数 $\theta_0$ 可以通过一个简单的线性回归(或直接求解矩条件)来估计: $$ \hat{\theta} = \frac{\sum{i=1}^n \tilde{D}_i \tilde{Y}i}{\sum{i=1}^n \tilde{D}i^2} $$ 这等价于求解 $\frac{1}{n}\sum{i=1}^n \psi(W_i; \theta, \hat{\eta}_i) = 0$。
4.5 步骤五:方差估计与统计推断
- 计算影响函数值:对于每个样本 $i$,计算 $\hat{m}_i = \tilde{D}_i (\tilde{Y}_i - \hat{\theta} \tilde{D}_i)$。这就是线性项 $m(W_i; \hat{\theta}, \hat{\eta}_i)$ 的估计。
- 计算雅可比矩阵:$\hat{J}n = -\frac{1}{n}\sum{i=1}^n \tilde{D}i^2$。对于部分线性模型,这是 $\partial\theta \psi$ 的样本平均。
- 估计方差:$\hat{\sigma}^2 = \hat{J}n^{-2} \cdot \frac{1}{n}\sum{i=1}^n (\hat{m}i - \bar{\hat{m}})^2$,其中 $\bar{\hat{m}} = \frac{1}{n}\sum{i=1}^n \hat{m}_i$。
- 构造置信区间:$\hat{\theta} \pm z_{1-\alpha/2} \cdot \sqrt{\hat{\sigma}^2 / n}$,其中 $z_{1-\alpha/2}$ 是标准正态分布的分位数。
重要提示:这里估计的是 $\hat{\theta}$ 的渐近方差。在有限样本下,由于非线性项 $T_n^{nl}$ 的存在,方差可能被轻微低估。一些更保守的做法会使用折刀法或自助法来估计方差,尤其是在样本量不大或担心高阶项影响时。
5. 常见陷阱、问题排查与高级技巧
即使遵循了上述步骤,实践中仍会遇到各种问题。以下是一些常见陷阱及其解决方案。
5.1 第一阶段预测精度不足
问题表现:$\hat{\theta}$ 的方差异常大,置信区间非常宽,或者估计值明显不合理。根本原因:Neyman正交性只免疫了一阶偏差。如果第一阶段模型 $\hat{m}(X)$ 和 $\hat{l}(X)$ 的预测误差太大(即收敛速率 $\phi_1, \phi_2$ 太小,不满足 $>1/4$),二阶项 $T_n^{nl}$ 可能过大,导致 $\hat{\theta}$ 仍有显著偏差,或方差膨胀。排查与解决:
- 诊断:检查第一阶段模型的样本外预测性能(如 $R^2$、MSE)。如果 $D$ 或 $Y$ 对 $X$ 的预测力很弱,这是一个危险信号。
- 解决:
- 特征工程:尝试构造更有预测力的特征,或使用领域知识。
- 模型升级:换用更强大的模型(如从线性模型切换到梯度提升树)。
- 正则化调整:如果使用线性模型,放松正则化强度;如果使用树模型,增加树深或迭代次数(需防范过拟合)。
- 样本量:考虑增加样本量。机器学习模型的收敛速率通常慢于参数模型,更多数据是根本解决方案。
5.2 违反Neyman正交性条件
问题表现:估计量 $\hat{\theta}$ 的偏差仍然很大,或者方差估计严重偏小,导致置信区间覆盖概率远低于名义水平(如95%的区间只覆盖了80%的情况)。根本原因:使用的得分函数 $\psi$ 并非真正的Neyman正交得分。这在处理更复杂的参数(如条件平均处理效应CATE、分位数处理效应)时容易发生。排查与解决:
- 诊断:进行“ placebo” 或“falsification” 测试。例如,在已知处理效应为零的模拟数据或子样本中运行你的估计程序,检查 $\hat{\theta}$ 是否显著偏离零。
- 解决:
- 重新推导得分函数:确保你使用的 $\psi$ 函数是通过严谨的矩条件推导而来,并验证其正交性。对于复杂参数,可能需要使用自动求导或数值路径微分来构造正交矩条件。
- 使用已验证的软件包:对于标准参数(如ATE、ATT),优先使用像
EconML、DoubleML、CausalML这样的成熟库,它们内置了正确的正交得分函数。
5.3 交叉拟合实施不当
问题表现:结果对数据分割方式非常敏感,方差估计不稳定。根本原因:K太小(如K=2),导致每个训练集样本量不足,第一阶段模型估计不准;或者分割不是随机的,引入了系统性偏差。排查与解决:
- 诊断:用不同的随机种子重复多次交叉拟合过程,观察 $\hat{\theta}$ 和其标准误的波动范围。如果波动过大,说明可能有问题。
- 解决:
- 增加K值:尝试K=5, 10甚至留一法(LOO)。但需权衡计算成本。
- 确保随机性:分割前务必彻底打乱数据。
- 使用重复交叉拟合:对同一个K,进行多次随机分割并取估计结果的平均,可以进一步稳定估计。
5.4 高维控制变量下的挑战
当控制变量 $X$ 的维度 $p$ 很高,甚至超过样本量 $n$ 时,需要特别小心。问题:许多机器学习模型在高维下容易产生稀疏解或过度正则化,可能错误地将与处理变量 $D$ 或结果变量 $Y$ 相关的重要变量系数压缩为零。解决方案:
- 双重选择 (Double Selection):在拟合 $\hat{m}(X)$(预测D)和 $\hat{l}(X)$(预测Y)之前,先分别用Lasso等稀疏模型从 $X$ 中筛选出对 $D$ 和 $Y$ 重要的变量,然后将两个筛选出的变量集取并集,作为最终用于训练 $\hat{m}$ 和 $\hat{l}$ 的特征集。这能有效防止遗漏重要混淆变量。
- 后Lasso+交叉拟合:先用Lasso筛选变量,然后在筛选出的变量集上,使用交叉拟合和更灵活的模型(如树模型)进行预测。这结合了变量选择的稳定性和非线性建模的能力。
5.5 有限样本下的方差修正
理论上方差估计 $\hat{V}$ 是有效的,但有限样本下,非线性项 $T_n^{nl}$ 可能仍有微小影响。一个实用的修正方法是使用折刀法。操作:
- 进行K折交叉拟合后,除了得到全样本估计 $\hat{\theta}$,再计算K个“删除一折”的估计值 $\hat{\theta}_{(-k)}$,即每次用剩余K-1折数据重新进行第一阶段训练和第二阶段估计。
- 折刀方差估计为:$\hat{V}{JK} = \frac{K-1}{K} \sum{k=1}^K (\hat{\theta}{(-k)} - \bar{\hat{\theta}}{(\cdot)})^2$,其中 $\bar{\hat{\theta}}{(\cdot)} = \frac{1}{K}\sum{k=1}^K \hat{\theta}_{(-k)}$。
- 用 $\hat{V}_{JK}$ 替代 $\hat{V}$ 来构造置信区间。这通常能提供更准确的有限样本覆盖概率。
5.6 软件实现推荐
对于大多数应用者,从零实现整个流程既繁琐又易错。强烈推荐使用以下经过严格测试的库:
| 软件包 | 语言 | 核心优势 | 适用场景 |
|---|---|---|---|
| DoubleML | Python, R | 理论严谨,实现清晰,支持多种模型和参数,文档优秀。 | 学术研究、需要严格复现理论设定的场景。 |
| EconML | Python | 微软出品,功能全面,支持最前沿的算法(如金属earner、DRLearner),与scikit-learn生态集成好。 | 工业级应用、需要估计异质性处理效应(CATE)。 |
| CausalML | Python | Uber开源,包含多种基于树的CATE估计器(如因果森林)。 | 专注于异质性处理效应探索和推断。 |
| grf | R | 专门用于广义随机森林,包括因果森林,推断理论扎实。 | 希望使用随机森林框架进行因果推断。 |
个人经验:对于刚入门的研究者,我建议从DoubleML开始,它的API设计非常贴近理论公式,能帮助你更好地理解每一步在做什么。对于追求预测性能和异质性分析的应用,EconML是更强大的选择。
6. 总结与展望
交叉拟合和Neyman正交性共同为在观测数据中运用机器学习进行因果推断提供了一个坚实、可操作的框架。这个框架的魅力在于,它将机器学习模型视为强大的预测工具,同时用严谨的计量经济学理论来约束和校正其输出,从而得到具有良好统计性质的因果估计。
理解其背后的渐近理论——如本文所详细剖析的——并非只是为了数学上的完备性。它直接指导着我们的实践:为什么我们要做交叉拟合?因为要打破依赖。为什么我们要费心构造正交得分函数?因为要免疫一阶偏差。为什么我们对第一阶段模型的预测精度有 $n^{-1/4}$ 的速率要求?因为这是保证最终估计量 $\sqrt{n}$ 收敛和有效推断的生命线。
在实际操作中,我最大的体会是诊断比估计更重要。永远不要满足于得到一个点估计和置信区间。一定要做预测性能检查、 placebo 检验、不同模型/不同K值的稳健性检验。理论保证了在理想条件下方法的有效性,但你的数据是否满足这些条件,需要你用这些诊断工具来验证。
最后,这个领域仍在快速发展。例如,对于超高维数据、时间序列数据、存在未观测混淆因素等更复杂的情境,如何结合机器学习与因果推断仍是活跃的研究前沿。但无论如何,掌握好交叉拟合和Neyman正交性这一核心组合,无疑是通向更复杂因果机器学习世界的基石。
