当前位置：首页 > news >正文

DML2 vs DML1：新渐近框架下的理论优势与最优折叠数选择

news 2026/7/13 1:17:47

1. 项目概述：DML2为何在理论上优于DML1？

在因果推断和半参数模型的实证研究中，我们常常面临一个核心挑战：如何在高维或非参数干扰函数（nuisance function）存在的情况下，稳健且高效地估计我们真正关心的核心参数（比如平均处理效应ATE）。传统的“先估计干扰函数，再代入估计目标参数”的“插件法”（plug-in estimator）看似直接，实则暗藏风险。因为同一个样本既用于估计干扰函数，又用于估计目标参数，会引入所谓的“自身观测偏差”（own observation bias），导致估计量的渐近分布不再标准，推断失效。为了绕过这个难题，去偏机器学习（Debiased Machine Learning, DML）应运而生，并迅速成为应用计量经济学和统计学中的主流工具。

DML的精髓在于其巧妙的两步设计：Neyman正交性条件和交叉拟合。Neyman正交性像是一个“缓冲垫”，它确保目标参数的估计方程对干扰函数的估计误差不那么敏感。而交叉拟合则是一种样本分割策略，它将数据随机分成K份，用其中K-1份数据训练干扰函数模型，然后在剩下的1份数据上评估目标参数，如此循环，最终合并结果。这套组合拳的核心价值在于，它允许我们使用任意复杂的机器学习模型（如随机森林、神经网络、Lasso等）去拟合干扰函数，而无需担心这些模型的复杂性会“污染”核心参数的估计，最终仍能获得具有参数收敛速率和渐近正态性的估计量。

然而，在实践DML时，我们面临一个看似微小却至关重要的选择：DML1还是DML2？这两种由Chernozhukov等人在2018年提出的算法，都基于交叉拟合，但“合并信息”的方式截然不同。简单来说，DML1是“先分治，后平均”：它在每个数据折（fold）内独立求解目标参数，最后对所有折的结果取平均。DML2则是“先平均，后求解”：它先将所有折的估计方程（moment condition）平均起来，然后求解这个统一的方程。在传统的渐近理论框架下（即固定K，让样本量n趋于无穷），这两种方法被证明具有完全相同的极限分布。这导致了一个理论上的“盲区”——既然渐近性质一样，那该选哪个？早期的模拟证据似乎更青睐DML2，但缺乏严格的理论支撑。

这就引出了本文要探讨的核心问题：在更贴近现实有限样本情形的渐近框架下——即折叠数K也随样本量n一同趋于无穷时——DML1和DML2的表现是否依然等价？如果不，谁更优？以及，我们应该如何选择K这个超参数？本文基于一篇前沿理论论文，深入拆解了这些问题。研究发现，在新的渐近框架下，DML2在偏差和均方误差方面展现出明确的理论优势。更关键的是，对于DML2，当折叠数K取到最大值，即等于样本量n时（此时即为留一交叉验证），其估计量在渐近偏差和精度上达到最优。这个结论挑战了实践中常被推荐的K=5或K=10等经验法则，为数据科学家和计量经济学家提供了更坚实的算法选择与超参数调优依据。

2. DML1与DML2的核心机制与差异解析

要理解DML2的理论优势，我们必须先吃透DML1和DML2在机制上的根本区别。这个区别看似只是计算顺序的调换，但其背后的统计含义和在小样本下的表现影响深远。

2.1 问题设定与符号约定

假设我们关心的参数是θ₀，它由一个已知的矩条件所定义：E[m(W, θ₀, η₀(X))] = 0。其中，W是观测到的随机向量，X是W的一个子向量（通常是协变量），而η₀(X)就是我们未知的干扰函数，它可能包含倾向得分、条件期望结果等。矩函数m通常是θ₀的线性函数，即m(W, θ, η) = ψ_b(W, η) - ψ_a(W, η) * θ。在这种设定下，θ₀可以表示为一个比值：θ₀ = E[ψ_b(W, η₀)] / E[ψ_a(W, η₀)]。

一个理想的“神谕”估计量（oracle estimator）是将上述期望替换为样本均值，并用真实的η₀代入。但η₀未知，我们只能用估计值ˆη去替代。如果粗暴地用全部数据先估计ˆη，再代入全部数据计算θ，就是前面提到的插件法，会引入偏差。DML的交叉拟合正是为了解决这个问题。

2.2 交叉拟合流程与两种估计量构建

交叉拟合的第一步，是将n个样本随机、均匀地划分为K个折（fold），记为I₁, I₂, ..., I_K。对于第k折，我们使用除该折之外的所有数据（即n*(K-1)/K个样本）来训练一个干扰函数估计器，记为ˆη_k(·)。然后，对于属于第k折的每个样本i（i ∈ I_k），其干扰函数估计值定义为ˆη_i = ˆη_k(X_i)。至此，我们为每个样本都获得了一个“样本外”预测的干扰函数估计值。

接下来，分歧出现了：

DML1的构建逻辑：
1. 分治：在每个折k内部，利用该折的样本和对应的干扰函数估计值，独立地求解一个局部参数估计值˜θ_k。具体来说，就是求解折内的矩条件：(1/n_k) Σ_{i∈I_k} m(W_i, θ, ˆη_i) = 0。由于m是线性的，这等价于计算˜θ_k = (Σ_{i∈I_k} ψ_b(W_i, ˆη_i)) / (Σ_{i∈I_k} ψ_a(W_i, ˆη_i))。
2. 平均：得到K个局部估计值˜θ₁, ..., ˜θ_K后，DML1估计量就是它们的简单平均：ˆθ_{n,1} = (1/K) Σ_{k=1}^K ˜θ_k。
DML2的构建逻辑：
1. 聚合：DML2不先求解局部参数，而是先将所有折的矩条件“池化”。它构建一个全局的估计方程：(1/K) Σ_{k=1}^K [ (1/n_k) Σ_{i∈I_k} m(W_i, θ, ˆη_i) ] = 0。
2. 求解：求解这个全局方程得到最终的估计量。由于矩条件是线性的，这个解有一个非常简洁的表达式：ˆθ_{n,2} = (Σ_{i=1}^n ψ_b(W_i, ˆη_i)) / (Σ_{i=1}^n ψ_a(W_i, ˆη_i))。

注意：DML2的最终形式ˆθ_{n,2}看起来非常像那个“神谕”估计量，只是把真实的η_i替换成了估计的ˆη_i。而DML1的最终形式ˆθ_{n,1}则是一个加权平均，其权重隐含在分母ψ_a的折内波动中。

2.3 一个关键特例与直觉理解

当ψ_a(W, η)是一个常数（例如在估计ATE时，ψ_a ≡ 1）时，DML1和DML2在数学上是完全等价的。因为此时每个折内的分母都是常数，˜θ_k正比于折内ψ_b的和，对其平均后，分子分母的求和可以交换，最终形式与DML2一致。

然而，在更一般的情况下，例如估计LATE（局部平均处理效应）时，ψ_a本身也是一个需要估计的函数（与工具变量的条件概率有关），此时ψ_a(W_i, ˆη_i)在不同样本间是变化的。正是这种变化，成为了区分DML1和DML2性能的关键。

我们可以这样直观理解：

DML1像是进行了K次独立的实验，每次实验用一部分数据估计一个θ，然后报告这K次实验的平均结果。如果每次实验的“测量尺子”（即分母ψ_a）本身有误差且在各折间波动，那么对测量结果直接平均可能会放大这种波动带来的偏差。
DML2则是先用所有数据共同确定一把“统一的尺子”（即全局的分母Σ ψ_a(W_i, ˆη_i)），然后用这把尺子去度量总体效应。它更有效地利用了所有样本信息来稳定估计方程的分母部分。

在传统固定K的渐近理论下，无论ψ_a如何波动，只要样本量n足够大，这种波动的影响都是高阶无穷小，因此DML1和DML2渐近等价。但是，当我们考虑K也增长的情形时，每个折的样本量n_k = n/K增长得没那么快（甚至可能不增长），折内ψ_a的估计误差就不能被忽略了。此时，两种算法处理误差的方式不同，就会导致渐近性质的差异。

3. 新渐近框架下的理论突破：为何K→∞至关重要

传统的DML渐近分析假设折叠数K是一个固定常数。这个假设在理论推导上很方便，因为它保证了每个折的样本量n_k = n/K会随着n增大而趋于无穷，从而可以应用标准的大数定律和中心极限定理。然而，这个框架与一个重要的实践动机脱节：为了提高干扰函数ˆη_k的估计精度，我们通常希望使用尽可能多的数据来训练它，也就是希望K大一些。因为每个ˆη_k使用了(K-1)/K比例的数据，K=5时用到了80%的数据，K=10时用到了90%的数据，K越大，用于训练干扰函数的数据比例就越高。

3.1 新框架的设定与动机

本文提出的新渐近框架是：让折叠数K也随着样本量n一同趋于无穷，即 K → ∞ 当 n → ∞。这个框架更好地刻画了有限样本下的一个现实场景：研究者为了提升干扰函数估计的精度，有意增加折叠数K。此时，每个折的样本量n_k的增长速度可能远慢于n（例如，如果K ∝ √n，则n_k ∝ √n），甚至可能保持有界。

在这个框架下分析DML估计量面临巨大的技术挑战。传统的证明严重依赖于每个折的样本量趋于无穷，当K也→∞时，许多基于折内独立同分布样本的标准渐近工具不再直接适用。论文通过引入对干扰函数估计量更强的结构假设（Assumption 3.2），为其设定了一个包含方差项和偏差项的随机展开式，从而为分析K→∞时的行为提供了数学抓手。

3.2 DML1的潜在渐近偏差

在新框架下，论文得到了一个关键结论：DML1估计量的一阶渐近分布可能包含一个额外的偏差项，而DML2则没有这个问题。

具体来说，DML1估计量经过标准化后，其极限分布可以表示为：√n (ˆθ_{n,1} - θ₀) →_d N( (Λ / K) * B, σ² )其中，σ²是大家熟悉的渐近方差，而(Λ / K) * B就是一个额外的渐近偏差项。这里Λ是一个只依赖于真实数据生成过程（矩函数m、真实参数θ₀和干扰函数η₀）的常数，B是另一个与估计误差有关的常数。

这个偏差项的出现，根源在于DML1“先分治、后平均”的策略。当K很大时，每个折的样本量很小，折内求解˜θ_k时，分母Σ_{i∈I_k} ψ_a(W_i, ˆη_i)的估计误差与分子Σ_{i∈I_k} ψ_b(W_i, ˆη_i)的估计误差之间的相关性，会以一种非线性的方式影响局部估计量˜θ_k，在对K个˜θ_k求平均后，这些局部相关性并没有被消除，反而聚合成了一个系统性的偏差。偏差的大小与Λ成正比，与K成反比（但注意，K在增长，所以这个偏差项的整体影响需要综合看）。

3.3 DML2的稳健性

相比之下，DML2估计量ˆθ_{n,2}在新框架下的一阶渐近分布保持了“干净”的形式：√n (ˆθ_{n,2} - θ₀) →_d N( 0, σ² )也就是说，无论K如何增长，DML2估计量始终是√n-相合且渐近无偏的，其渐近方差与固定K情形下、甚至与“神谕”估计量都相同。

为什么DML2能如此稳健？核心在于其估计量的构造形式ˆθ_{n,2} = (Σ ψ_b) / (Σ ψ_a)。这个形式使得分子和分母的求和是在全样本上进行的。当我们将干扰函数的估计误差ˆη_i - η_i代入并进行泰勒展开时，由于Neyman正交性条件，一阶项为零。剩下的高阶项中，那些可能产生偏差的交叉项，在DML2的全局求和形式下，通过一种类似于“自我标准化”的过程被有效地抵消掉了。而DML1的局部求和与后续平均，破坏了这种抵消机制。

3.4 参数Λ的决定性作用

常数Λ成为了区分DML1和DML2表现的“分水岭”：

当 Λ = 0 时：DML1的渐近偏差项消失。此时，在固定K和K→∞两种框架下，DML1和DML2具有相同的一阶渐近性质。许多重要的因果参数满足Λ=0，例如平均处理效应（ATE）、双重差分中的处理组平均处理效应（ATT-DID）、部分线性模型（PLM）的处理效应系数等。
当 Λ ≠ 0 时：DML1会表现出对K值的敏感性。Λ的绝对值越大，DML1的偏差和均方误差对大的K值就越敏感。而DML2则完全不受Λ影响。局部平均处理效应（LATE）和加权平均处理效应（w-ATE）就是Λ通常不为零的典型例子。

这个发现具有极强的实践指导意义。它意味着，对于像LATE这类参数，如果使用DML1并采用较大的K值（比如K=10或留一法），可能会引入不可忽视的偏差。而使用DML2则可以完全避免这个问题。因此，从稳健性的角度出发，无论目标参数是什么，优先选择DML2总是一个更安全、理论性质更优的策略。

4. 最优折叠数选择：为何K=n是DML2的黄金标准

既然DML2在新框架下表现稳健，下一个自然的问题是：对于DML2，我们应该选择多大的K？常见的实践建议是K=5或10，这更多是出于计算复杂度和偏差-方差权衡的经验选择。然而，本文的理论分析给出了一个更激进且最优的答案：在满足一定条件下，选择K = n（即留一交叉验证）可以使DML2估计量在渐近偏差和渐近均方误差意义上达到最优。

4.1 高阶渐近分析下的偏差最小化

论文在更严格的假设下（Assumption 3.3），对DML2估计量进行了高阶渐近展开。分析发现，DML2估计量的高阶偏差（高于一阶的主要偏差项）的绝对值，随着折叠数K的增加而单调递减。也就是说，K越大，高阶偏差越小。

其背后的直觉是：DML2的偏差主要来源于干扰函数估计误差ˆη_i - η_i的二阶项。每个ˆη_k是用除第k折外的数据训练的。K越大，每个折的样本量n_k越小，但用于训练每个ˆη_k的样本量n₀ = n*(K-1)/K却越接近n。更重要的是，当K=n时，ˆη_k变成了一个留一估计量（leave-one-out estimator），即用除了第i个样本外的所有n-1个样本来预测η(X_i)。这种构造方式使得干扰函数的估计误差在特定意义下与样本i“几乎独立”，从而最大程度地削减了偏差项中那些讨厌的交叉相关项。

因此，在最小化渐近偏差的目标下，K=n是DML2的最优选择。这推翻了“K不能太大，否则方差会增大”的传统经验认知。对于DML2，更大的K在理论上有助于降低偏差。

4.2 二阶渐近均方误差的最优性

除了偏差，我们同样关心估计的精度，即均方误差。论文进一步分析了DML2估计量的二阶渐近均方误差。结论是，在一定的数据依赖条件下，K=n同样能最小化这个二阶渐近均方误差。

这意味着，选择留一法不仅减少了偏差，而且在很多情况下也提升了估计的总体精度（偏差平方+方差）。这提供了一个强有力的理论依据，支持我们在计算资源允许的情况下，尽可能使用最大的K值（即留一法）来实施DML2。

4.3 对常见实践建议的重新审视

本文的结论对当前主流实践指南构成了直接挑战。许多优秀的应用研究和软件包（如Ahrens等，2024；Bach等，2022）默认推荐使用K=5或10进行交叉拟合。这些建议通常是基于计算便利性和一些模拟实验的综合考量。

然而，本文的理论表明，从纯粹的渐近偏差和精度角度看，K=5或10对于DML2来说是次优的。当然，这并不意味着这些建议是“错误”的，因为理论结论依赖于一系列假设，且留一法在计算上可能非常昂贵，尤其是当干扰函数需要用计算密集型机器学习方法（如深度神经网络）来估计时。

4.4 次优选择的相对损失

一个很实际的问题是：如果我因为计算成本而无法使用K=n，选择K=10会损失多少精度？论文提供了一个令人安心的量化分析：选择K=10（而非最优的K=n）来实施DML2，在渐近偏差方面的最大相对损失大约为10%，在渐近精度（二阶MSE）方面的最大相对损失大约为5%。

这个分析非常宝贵。它告诉实践者，虽然K=n在理论上是黄金标准，但采用一个中等大小的K（如10）所带来的效率损失是相对有限且可接受的。这为在理论最优与实践可行性之间进行权衡提供了清晰的量化参考。如果你的计算资源有限，或者模型训练非常耗时，那么选择K=10依然是一个非常好的折中方案，其性能接近最优。

5. 实操指南与注意事项

基于以上理论分析，我们可以为应用研究者总结出一套清晰的DML实施指南。

5.1 算法选择：坚定不移地选择DML2

首要且最明确的建议是：在你的因果推断或半参数估计项目中，默认使用DML2，而不是DML1。

理由：DML2具有更优越的理论性质。它在K→∞的新渐近框架下保持无偏，而DML1可能引入渐近偏差。除非你非常确定你所估计的参数满足Λ=0（例如ATE），并且你使用的K很小，否则DML2是更安全、更稳健的选择。
实操：在代码实现上，DML2的最终表达式ˆθ_{n,2} = (Σ ψ_b) / (Σ ψ_a)计算起来通常比DML1更简单，无需在折间循环求解再平均。许多现成的软件包（如Python的EconML、DoubleML，R的DoubleML）默认或主要实现的就是DML2算法。

5.2 折叠数选择：追求K=n，但K=10是优秀的实用选择

关于折叠数K的选择，理想目标是K=n（留一法），但K=10是一个在精度和计算成本之间极佳的平衡点。

追求最优（当计算可行时）：如果你的样本量不是特别大（例如n < 10,000），并且干扰函数模型训练一次的成本可以接受，那么强烈建议尝试使用留一法（K=n）。这能确保你获得理论上偏差最小、可能也是最精确的估计结果。对于线性或较简单的模型，留一法的计算量是O(n²)，对于中等规模数据仍是可行的。
实用折中方案：对于大数据集或复杂模型（如深度学习），训练n个模型是不现实的。此时，将K设置为10是一个经过理论验证的、优秀的默认值。它保证了用于训练每个干扰函数模型的数据比例高达90%，同时将计算量控制在训练10个模型。理论分析表明，其性能损失相对于留一法很小。
需要避免的：避免使用太小的K，比如K=2。虽然这只需要训练2个模型，但每个模型只用了50%的数据，会显著降低干扰函数的估计精度，进而可能影响最终目标参数估计的效率和偏差，即使对于DML2也是如此。

5.3 干扰函数估计的注意事项

DML的强大之处在于允许使用灵活的机器学习方法估计干扰函数，但以下几点至关重要：

模型选择与验证：即使采用了交叉拟合，干扰函数模型本身的质量仍然重要。应在每个训练折（即{i ∉ I_k}）内部使用交叉验证等方法选择超参数，避免数据泄露。
保证Neyman正交性：确保你使用的估计方程（或得分函数）是经过“去偏”或“增广”的，使其满足Neyman正交性条件。对于常见的因果参数（如ATE、LATE），文献中已有标准的双稳健（Doubly Robust）估计方程，直接使用即可。切勿使用不满足正交性的简单插件估计方程。
方差估计与推断：DML估计量的渐近方差σ²的估计也需要小心。通常采用基于影响函数（Influence Function）的估计量：ˆσ² = (1/n) Σ_i [m(W_i, ˆθ, ˆη_i)]² / [ (1/n) Σ_i ψ_a(W_i, ˆη_i) ]²。注意，这里的ˆη_i必须是样本外预测值（即来自交叉拟合）。然后利用ˆθ ~ N(θ₀, ˆσ²/n)进行假设检验和构建置信区间。

5.4 常见陷阱与排查

结果不稳定或方差极大：
- 可能原因：ψ_a(W_i, ˆη_i)的估计值接近零，导致分母不稳定。这在估计LATE等参数时尤其常见，因为分母涉及工具变量的条件概率之差。
- 排查：检查ψ_a的样本分布。是否存在极端小的值？考虑对倾向得分或工具变量概率的估计进行修剪（trimming），例如将估计值限制在[ε, 1-ε]区间内（如ε=0.01）。
与简单估计量差异巨大：
- 可能原因：干扰函数（如倾向得分、条件均值）的机器学习模型拟合效果很差，或者存在过拟合。
- 排查：在训练折上评估干扰函数模型的预测性能。对于倾向得分模型，检查预测值的分布是否合理；对于条件均值模型，查看样本外R²。考虑使用更稳健或更简单的模型作为基线对比。
置信区间覆盖不足：
- 可能原因：样本量不足，或者干扰函数估计的收敛速度太慢（不满足n^(-1/4)速率要求），导致高阶项的影响仍较大。
- 排查：尝试增加样本量（如果可能）。使用收敛速度更快的机器学习方法（如Lasso、梯度提升树）来估计干扰函数。也可以尝试使用更保守的方差估计方法，如折刀法（jackknife）或自助法（bootstrap），尽管计算量更大。
计算时间过长：
- 可能原因：使用了K=n（留一法）且干扰函数模型训练很慢。
- 解决方案：这是采用最优理论方案的实际代价。可以尝试：a) 使用K=10；b) 使用更高效的模型；c) 利用并行计算同时训练多个折的模型；d) 对于超大样本，考虑使用近似留一法或K折交叉验证的变种。

6. 理论启示与未来扩展方向

本文的理论分析不仅提供了明确的实践指南，也深化了我们对DML方法本身的理解，并指出了若干有价值的扩展方向。

6.1 对“正交化”与“样本分割”的再认识

DML的成功依赖于Neyman正交性和交叉拟合的协同作用。本文的工作进一步阐明，正交化处理的是估计方程对干扰函数误差的敏感性，而交叉拟合（特别是DML2的构建方式）处理的是如何将多个基于部分样本的、误差相关的估计量最优地组合起来。DML2的优越性在于其组合方式天然地抑制了高阶交叉项产生的偏差。这提示我们，在设计其他复杂的估计方法时，估计量的聚合方式需要仔细考量，不能简单地取平均了事。

6.2 对超参数调优的范式影响

在机器学习中，超参数（如K）的选择通常通过交叉验证最小化预测误差来决定。然而，本文指出，对于因果/半参数估计中的DML2，存在一个理论上的最优K（即n），其最优性是由估计量本身的渐近性质决定的，而非通过基于样本的调优。这为我们调优算法超参数提供了新的思路：有时，理论推导可以直接给出最优解，无需进行昂贵的网格搜索。这节省了计算资源，也避免了调优过程引入的随机性。

6.3 有待探索的领域

非标准渐近框架的应用：本文采用的K→∞框架是一种“许多折、每折样本量有限”的渐近思想。这种思想可以推广到其他依赖样本分割的统计方法中，例如各种自助法（bootstrap）、子抽样（subsampling）方法，用于研究它们在更现实场景下的性质。
数据依赖的折叠数选择：虽然K=n在理论上是全局最优，但理论结论依赖于一些条件。一个有趣的方向是开发数据驱动的准则，在样本中自动判断这些条件是否近似成立，从而自适应地选择K。例如，可以构建一个估计Λ的统计量，如果发现Λ显著不为零，则更坚定地选择DML2和大K值。
计算与统计效率的进一步权衡：留一法DML2的计算复杂度是O(n * T)，其中T是训练一个干扰函数模型的成本。对于超大样本和复杂模型，这不可行。研究K=n的近似算法（如基于影响函数的近似、分布式计算框架下的高效实现）将具有很高的实用价值。
扩展到非线性矩条件：本文主要关注矩条件关于θ是线性的情况。对于非线性的广义矩估计（GMM）问题，DML1和DML2的差异可能会更加复杂，其理论分析是一个重要的扩展方向。

总而言之，这项研究将DML从一种实用的“黑箱”算法，提升到了具有深刻理论内涵和明确最优决策指南的方法论高度。它告诉我们，在因果推断的工程实践中，一个细微的算法实现选择（DML1 vs DML2）和一个超参数的设定（K的值），背后都有着坚实的统计理论支撑。遵循DML2 + 大K值（理想为n）的原则，能让我们的估计在理论上站得更稳，在实践中走得更远。

查看全文

http://www.jsqmd.com/news/879447/