当前位置：首页 > news >正文

机器学习因果推断：SSRI与RI方法如何解决异质性效应估计的不确定性

news 2026/7/17 12:22:46

1. 项目概述与核心挑战

在实证研究的工具箱里，因果推断正变得越来越“智能”。我们不再满足于回答“这个药平均来看有没有效”，而是迫切想知道“这个药对张三、李四、王五分别有多大效果？”。这就是异质性处理效应估计的魅力所在，它让我们能窥见干预措施背后因人而异的精细图景。机器学习模型凭借其强大的预测能力，自然成为了挖掘这种异质性的利器。然而，当我们兴冲冲地把随机森林、神经网络这些“大杀器”套用到因果问题上时，一个老问题总会以新的面貌跳出来困扰我们：你的结果到底有多可靠？

这个“可靠性”问题，在机器学习因果推断的语境下变得尤为棘手。为了防止模型过拟合，我们习惯性地把数据分成训练集和测试集。但你想过没有，就这么随手一划，一个随机的种子，可能就决定了你最终的结论是“效应显著”还是“效应不显”。今天张三用种子42做了一次分割，发现高收入群体受益明显；明天李四用种子123再做一次，可能结论就变成了中等收入群体获益最大。这种因为数据分割随机性导致的结论波动，在学术上被称为“分割不确定性”。它就像幽灵一样，让基于单次分割的置信区间变得不可信，因为你无法确定下一次换一个随机划分，你的区间还能不能罩住真实的效应值。

所以，问题的核心从“如何估计”转向了“如何为估计量提供一个稳健的不确定性度量”。近期方法论上的前沿进展，主要围绕两条技术路径展开：一条是基于重复样本分割的稳健推断，另一条是基于随机化推断的框架。前者思路直接，通过大量重复“分割-拟合-估计”的过程，用经验分布来刻画不确定性，代价是计算成本高昂；后者则更精巧，试图在单次或少数几次分割的框架内，通过理论推导和交叉验证来同时捕捉估计误差和分割变异。作为一名经常在项目中应用这些方法的研究者，我深感理解这两者的异同、适用场景和实操陷阱，对于做出可靠的研究至关重要。接下来，我们就深入拆解这两种方法，看看它们是如何工作的，在实战中又会遇到哪些坑。

2. 核心方法论解析：SSRI 与 RI 的原理与设计

要理解这两种方法，我们得先回到它们试图解决的根本问题上。当我们用机器学习模型去估计异质性处理效应时，比如估计条件平均处理效应（CATE）或分组平均处理效应（GATES），我们通常需要两步：第一步，用一部分数据（训练集）去训练一个模型，这个模型会输出一个针对每个个体的“处理效应得分”或“异质性评分”；第二步，用另一部分未见过的数据（评估集）去评估这个评分所定义的不同组别的实际效应。数据分割就是为了确保评估的公正性。SSRI和RI都承认这种分割的必要性，但它们在“如何应对分割随机性”这一问题上分道扬镳。

2.1 样本分割稳健推断：用计算换安心

SSRI 方法的逻辑非常符合直觉：既然一次分割的结果不稳定，那我就做很多次，看看结果分布的范围有多大。具体来说，它的操作流程像一个严格的蒙特卡洛实验：

重复分割：将整个数据集随机分割（例如67%训练/33%评估）很多次，比如CDDF论文中推荐的250次。
逐次估计：对于每一次分割 ℓ，用训练集数据拟合你选择的任何机器学习模型（如LASSO、BART、因果森林），得到一个模型S^(ℓ)。然后，在评估集上，根据这个模型预测的评分对个体进行排序、分组（例如分成5组），并计算每个组k的GATES估计值γ̂_k^(ℓ)及其条件置信区间（即给定当前这次分割下的置信区间）。
聚合区间：关键的一步来了。为了得到一个考虑了所有可能分割的无条件置信区间，SSRI并不简单地取所有估计值的平均值。相反，它取所有250次分割所产生的条件置信区间上下界的中位数。也就是说，最终报告的无条件区间下限是250个条件区间下限的中位数，上限是250个条件区间上限的中位数。

注意：这里使用中位数而非均值，是为了保证在任意分割下构造的区间在概率上的稳健性。理论上，只要超过一半的分割产生的条件区间覆盖了真值，那么由中位数上下界构成的区间就能以至少50%的概率覆盖真值。这是一种非常保守但稳健的策略。

这种方法的优势显而易见：模型无关性和理论稳健性。它不关心你用的机器学习模型是否完美拟合了CATE，即使模型有偏，只要数据分割是随机的，且满足一些正则条件，最终构造的区间依然能渐进地覆盖真值。但它的代价也同样明显：计算成本。每一次分割都需要重新训练一个可能很复杂的ML模型。如果你用的是像贝叶斯可加回归树（BART）这类计算密集型模型，重复250次无疑是沉重的负担。此外，模型中如果还涉及超参数调优（这通常又需要内部交叉验证），计算开销会进一步爆炸。

2.2 随机化推断：在效率与稳健间寻找平衡

RI 方法则采取了一种不同的哲学。它基于Neyman提出的“设计基础”框架，将治疗分配、样本抽取和数据分割都视为随机化机制的一部分。其核心思想是：通过交叉验证，在一次数据分割的框架内，巧妙地复用数据来模拟多次分割的方差信息，从而同时估计出由模型训练和样本分割共同引入的不确定性。

它的典型操作流程（以K折交叉验证为例）是这样的：

单次分割与交叉验证：将数据一次性分割成L个大小相等的块（例如L=5）。这不同于SSRI的多次独立67/33分割。
轮换评估：进行L轮计算。在第ℓ轮，将第ℓ块数据作为评估集L_ℓ，其余L-1块数据作为训练集L_{-ℓ}，用于训练ML模型并得到代理评分S^(-ℓ)。
估计与平均：在每一轮的评估集上，根据本轮训练的模型评分对个体分组，并计算该组的GATES估计值γ̂_k^(ℓ)。最终，第k组的GATES估计值是所有L轮估计值的简单平均：γ̂_k = (1/L) * Σ γ̂_k^(ℓ)。
方差估计与区间构造：RI方法最精妙的部分在于其方差估计。它认识到，由于使用了交叉验证，不同轮次（ℓ）的估计值γ̂_k^(ℓ)之间不是独立的。直接计算它们的样本方差会低估真实方差。因此，它采用了Nadeau和Bengio提出的校正公式来估计γ̂_k的方差：V(γ̂_k) = V(γ̂_k^(ℓ)) - [(L-1)/L] * E(V_k^2)其中，第一项V(γ̂_k^(ℓ))是单次分割下（假设用全部训练数据）估计值的方差，第二项是减去由于交叉验证带来的“伪重复”而高估的方差部分。V_k^2是L个γ̂_k^(ℓ)之间的样本方差。这个校正后的方差同时包含了模型估计的不确定性和由于数据分割（具体是哪个块被留作评估）不同所导致的不确定性。基于此方差，就可以构造出渐近的置信区间。

RI方法的优势在于其计算效率。它只需要训练L次模型（通常L=5或10），而不是成百上千次。同时，它依然保持了模型无关性和理论上的有效性。然而，它的一个潜在缺点是，其理论保证是渐近的（依赖于样本量增大），并且在有限样本下，其方差估计和区间覆盖性质可能对数据生成过程更为敏感。

2.3 核心差异对比：��张表看清本质

为了更直观地把握两种方法的精髓，我将它们的关键特性总结如下：

特性维度	样本分割稳健推断	随机化推断
核心思想	通过大量重复随机分割，用经验分布（中位数区间）来囊括分割不确定性。	基于设计基础框架，利用交叉验证和方差校正，在单次分割结构内同时估计两种不确定性。
计算成本	高。需要重复训练模型数百次（如250次）。	低。仅需训练模型`L`次（如5或10次）。
不确定性来源	明确区分并整合了“给定分割下的估计不确定性”和“分割本身的随机性”。	通过理论推导，将两种不确定性合并到一个方差估计量中。
理论性质	提供有限样本下的概率覆盖保证（基于马尔可夫不等式），但可能较保守。	提供渐近下的覆盖保证，有限样本性质依赖于校正公式的准确性。
输出结果	一组基于多次分割的估计值分布，以及一个由中位数界构成的无条件置信区间。	一个点估计（交叉验证平均）及其对应的考虑了分割不确定性的置信区间。
适用场景	计算资源充足，追求最稳健、最保守的不确定性度量，尤其适用于模型训练较快或样本量极大的情况。	计算资源有限，需要在效率和稳健性间取得平衡，适用于复杂模型或中等样本量。
与基线调整	方法本身可方便地加入对基线协变量的调整（通过额外拟合一个模型），以缩减区间长度。	原始框架未明确包含基线调整，但理论上可以扩展。

实操心得：选择哪种方法，首先是一个计算预算问题。如果你的模型训练一次只需要几秒钟，那么跑250次SSRI可能也就十分钟，完全可以用它来求个心安。但如果训练一个因果森林需要半小时，那么SSRI就变得不切实际，RI几乎是唯一可行的选择。其次，要考虑你对保守性的偏好。SSRI的区间通常更宽、更保守（覆盖概率可能接近100%），这能让你在报告“效应不显著”时更有底气，但也会损失检测出细微效应的能力。RI的区间相对更紧，但你需要接受其渐近性质，并在样本量较小时对结果保持一丝谨慎。

3. 实操过程与核心环节实现

理解了原理，我们来看看如何具体实现这两种方法。这里我不会只贴代码，而是结合我的经验，重点讲解操作中的关键步骤、参数选择背后的考量，以及那些容易踩坑的细节。我们将以评估分组平均处理效应（GATES）为例，使用R语言环境进行说明。

3.1 数据准备与模拟环境搭建

在真正分析实际数据之前，我强烈建议先用模拟数据验证你的分析流程。这能帮你理解方法的行为，并校准你的预期。我们可以借鉴论文中提到的ACIC 2016竞赛的数据生成过程。

# 示例：模拟一个简单的线性异质性处理效应数据 set.seed(123) # 固定随机种子，确保结果可复现 n <- 1000 # 样本量 p <- 20 # 协变量维度 # 生成协变量 X <- matrix(rnorm(n * p), n, p) # 生成倾向得分（随机化实验下为常数） propensity <- 0.5 # 随机分配处理 D <- rbinom(n, 1, propensity) # 生成基线响应 Y0 <- 0.5 + X[,1] + 0.3*X[,2] + rnorm(n) # 生成异质性处理效应：效应大小与X1相关 tau <- 1 + 0.8*X[,1] # 生成观测结果 Y <- Y0 + D * tau # 创建数据框 data <- data.frame(Y, D, X)

注意：在模拟中，我们知道真实的处理效应tau，因此可以事后评估置信区间的覆盖概率（即区间包含真实tau的比例是否接近95%）。但在实际应用中，真实效应是未知的，这正是我们需要区间估计的原因。

3.2 使用`evalITR`包实现随机化推断（RI）

Imai和Li教授团队开发的evalITRR包是实践RI方法的绝佳工具。它封装了论文中的方法，接口清晰。

# 安装并加载包 # install.packages("evalITR") library(evalITR) # 假设我们使用LASSO来估计CATE评分 # 首先，我们需要一个函数，输入训练数据和评估数据，输出评估数据的预测评分 # 这里使用glmnet包进行LASSO回归，以治疗组交互项来捕捉异质性 library(glmnet) train_ml_proxy <- function(train_data, eval_data) { # 准备训练数据：协变量和处理交互项 X_train <- as.matrix(train_data[, grep("^X", names(train_data))]) # 创建交互项：协变量 * 处理变量 # 注意：在训练阶段，我们使用训练集的处理变量D_train D_train <- train_data$D X_train_interaction <- X_train * D_train # 拟合LASSO模型：Y ~ X + X*D # 这里简单地将所有协变量和交互项放入模型 full_X_train <- cbind(X_train, X_train_interaction) cv_fit <- cv.glmnet(full_X_train, train_data$Y, alpha = 1) # alpha=1 for LASSO best_lambda <- cv_fit$lambda.min # 为评估数据预测：需要预测在D=1和D=0下的Y，差值作为CATE代理 X_eval <- as.matrix(eval_data[, grep("^X", names(eval_data))]) # 预测当所有评估个体都接受处理（D=1） X_eval_treat <- cbind(X_eval, X_eval * 1) Y_hat_1 <- predict(cv_fit, newx = X_eval_treat, s = best_lambda) # 预测当所有评估个体都未接受处理（D=0） X_eval_control <- cbind(X_eval, X_eval * 0) Y_hat_0 <- predict(cv_fit, newx = X_eval_control, s = best_lambda) # CATE代理评分 s_hat <- as.numeric(Y_hat_1 - Y_hat_0) return(s_hat) } # 使用evalITR进行RI推断 # 指定分组数K K <- 5 # 指定交叉验证折数L L <- 5 # 调用核心函数 ri_result <- estimateGATES( data = data, # 必须的列名 outcome = "Y", treatment = "D", # 用户提供的机器学习函数 ml_proxy = train_ml_proxy, # 分组和交叉验证参数 K = K, L = L, # 其他参数：是否包含基线调整（RI方法本身不强制，但函数可能提供选项） include_ps = FALSE # 本例不包含倾向得分调整 ) # 查看结果 print(ri_result) summary(ri_result) # 结果通常包含：每组（k=1,...,K）的估计效应gamma_hat_k，标准误，置信区间上下界。

关键参数解析与避坑指南：

ml_proxy函数：这是整个流程的引擎。你必须提供一个函数，它接受train_data和eval_data两个数据框，并返回eval_data中每个个体的处理效应评分。这个评分不需要是真实CATE的无偏估计，但它应该与真实的CATE正相关（即评分高的个体，真实效应也倾向于高）。常见的做法是使用任何回归或分类模型，预测Y(1) - Y(0)的差值，或直接使用T-learner、S-learner等元算法的输出。
分组数K：如何选择K？这是一个艺术而非科学。K越大，分组越细，能揭示更精细的异质性模式，但每个组内的样本量会变小，估计的方差会增大。通常，K=5或K=10是常见的起点。你可以尝试不同的K值，观察效应估计的模式是否稳定。如果K=5时效应单调递增，而K=10时模式混乱，可能说明数据中的异质性信号不强，或者样本量不足以支持更细的分组。
交叉验证折数L：L控制了方差估计中的偏差-方差权衡。L越大（如L=10），每次训练集越大，训练出的代理模型可能更稳定，但L个估计值之间的相关性可能更强��方差校正公式的准确性需要考量。L越小（如L=3），计算更快，但每次训练的样本量减少。通常L=5或L=10是稳健的选择。在实践中，我通常会尝试L=5和L=10，如果结果差异不大，则选用L=5以节省计算时间。
置信区��类型：estimateGATES函数通常会输出基于渐近正态性假设的Wald型置信区间。你需要检查结果中是否包含了基于RI理论校正后的标准误。

3.3 实现样本分割稳健推断（SSRI）

目前似乎没有专门为SSRI方法论打造的一站式R包（CDDF的原始代码可能存在于其论文的补充材料中）。因此，实现SSRI需要手动编写循环。这个过程虽然繁琐，但能让你对方法有更深刻的理解。

# 实现SSRI的简化示例框架 set.seed(123) B <- 250 # 重复分割次数 split_ratio <- 0.67 # 训练集比例 K <- 5 results_list <- list() for (b in 1:B) { # 1. 随机分割数据 train_index <- sample(1:nrow(data), size = floor(split_ratio * nrow(data)), replace = FALSE) train_data <- data[train_index, ] eval_data <- data[-train_index, ] # 2. 在训练集上训练ML模型，并得到评估集的评分 # 使用与RI示例中相同的train_ml_proxy函数 s_hat_eval <- train_ml_proxy(train_data, eval_data) eval_data$proxy_score <- s_hat_eval # 3. 在评估集上，根据评分将个体分为K组 # 计算分位数切点 cut_points <- quantile(eval_data$proxy_score, probs = seq(0, 1, length.out = K+1)) # 确保切点唯一，避免空组 cut_points_unique <- unique(cut_points) if(length(cut_points_unique) < K+1) { # 如果出现重复分位数，采用秩次分组 eval_data$group <- as.numeric(cut(rank(eval_data$proxy_score), breaks = K, labels = 1:K)) } else { eval_data$group <- as.numeric(cut(eval_data$proxy_score, breaks = cut_points, include.lowest = TRUE, labels = 1:K)) } # 4. 在评估集上计算每组的GATES (简单差值估计量) gate_estimates <- numeric(K) ci_lower <- numeric(K) ci_upper <- numeric(K) for (k in 1:K) { group_data <- eval_data[eval_data$group == k, ] n1_k <- sum(group_data$D == 1) n0_k <- sum(group_data$D == 0) if (n1_k > 0 & n0_k > 0) { Y1_mean <- mean(group_data$Y[group_data$D == 1]) Y0_mean <- mean(group_data$Y[group_data$D == 0]) gate_hat <- Y1_mean - Y0_mean # 简单计算组内方差（假设组内同方差） var1 <- var(group_data$Y[group_data$D == 1]) / n1_k var0 <- var(group_data$Y[group_data$D == 0]) / n0_k se_hat <- sqrt(var1 + var0) # 构造条件置信区间（95%） ci_lower[k] <- gate_hat - 1.96 * se_hat ci_upper[k] <- gate_hat + 1.96 * se_hat gate_estimates[k] <- gate_hat } else { gate_estimates[k] <- NA ci_lower[k] <- NA ci_upper[k] <- NA } } # 存储本次分割的结果 results_list[[b]] <- list(gate_estimates = gate_estimates, ci_lower = ci_lower, ci_upper = ci_upper) } # 5. 聚合结果：计算中位数区间 # 提取所有B次迭代中，第k组的区间上下界 aggregate_results <- data.frame( group = 1:K, gate_median = NA, ci_lower_median = NA, ci_upper_median = NA ) for (k in 1:K) { lower_bounds <- sapply(results_list, function(x) x$ci_lower[k]) upper_bounds <- sapply(results_list, function(x) x$ci_upper[k]) gate_ests <- sapply(results_list, function(x) x$gate_estimates[k]) # 去除NA值 lower_bounds <- lower_bounds[!is.na(lower_bounds)] upper_bounds <- upper_bounds[!is.na(upper_bounds)] gate_ests <- gate_ests[!is.na(gate_ests)] aggregate_results$gate_median[k] <- median(gate_ests) aggregate_results$ci_lower_median[k] <- median(lower_bounds) aggregate_results$ci_upper_median[k] <- median(upper_bounds) } print(aggregate_results)

SSRI实现中的关键细节与陷阱：

随机种子与可重复性：整个循环开始前设置set.seed()至关重要，这能保证你的“随机”分割序列是可重复的。但在报告结果时，需要说明你使用了SSRI方法并重复了B次，以避免被误认为是单次分割的结果。
分组的稳健性：使用分位数分组时，如果评分有很多重复值（例如，使用树模型时），quantile函数可能返回重复的切点，导致分组失败。代码中加入了使用rank()的备选方案，这是一个实用的技巧。
条件置信区间的构造：在评估集上为每个组构造置信区间时，我使用了最简单的基于组内均值差和标准误的Wald区间。在实际应用中，CDDF的方法可能涉及更复杂的估计量，例如对基线协变量进行回归调整（即“带基线估计的SSRI”）以提升精度。是否进行调整是一个选择：调整后区间更窄，但依赖于基线模型设定的正确性。
计算管理：当B=250且模型复杂时，这个循环会运行很久。务必使用并行计算来加速。在R中，你可以用foreach包配合doParallel包轻松实现。

library(doParallel) library(foreach) cl <- makeCluster(detectCores() - 1) # 留一个核心给系统 registerDoParallel(cl) results_list <- foreach(b = 1:B, .packages = c("glmnet"), .combine = 'c') %dopar% { # ... 循环体内的代码同上 ... # 注意：需要将数据 data 和函数 train_ml_proxy 显式传递或确保在集群环境中可用 return(list(result = list(gate_estimates=..., ci_lower=..., ci_upper=...))) } stopCluster(cl)

结果解释：SSRI最终给出的是“中位数区间”。这意味着，有超过50%的随机分割产生的条件区间，其整体（上下界同时）比这个最终区间更“乐观”（更窄）或更“悲观”（更宽）。这是一个非常保守的陈述。你不能把它解释为“真实效应有95%的概率落在这个区间内”，其覆盖概率通常远高于95%，正如论文模拟中显示的接近100%。

4. 性能对比与实战选择指南

纸上得来终觉浅，我们最终要回到那个现实问题：在我的项目中，到底该选哪一个？让我们结合论文中的模拟发现和我个人的实践经验，从多个维度进行对比，并给出选择指南。

4.1 覆盖概率与区间长度：保守性与精确性的权衡

论文中的模拟实验（见其图1和图2）揭示了几个关键现象，这些现象在实战中具有重要的指导意义：

SSRI极其保守：无论样本量大小（从100到2500），SSRI方法构造的95%置信区间，其经验覆盖概率（即在重复模拟中区间覆盖真实效应的比例）都接近100%。这意味着它几乎从不犯错（第一类错误极低），但代价是区间非常宽。这种保守性主要源于其理论构造中使用了马尔可夫不等式，这是一个对任何分布都成立但通常很松的不等式。
RI相对平衡：RI方法的覆盖概率也倾向于高于95%（即有些保守），但程度远低于SSRI。在样本量增大时，其覆盖概率更接近名义水平95%。相应地，RI的置信区间平均长度比SSRI（不进行基线调整时）要短。
基线调整的作用：当SSRI方法加入了额外的机器学习模型来估计并调整基线响应（即控制组的期望结果）后，其置信区间长度可以大幅收缩，在大样本下变得与RI区间长度相当。这提示我们，协变量调整是提升精度的重要武器。RI方法理论上也可以整合基线调整，虽然其原始论文未重点强调，但在实现时（例如在train_ml_proxy函数中更精细地建模Y(0)）是可行的。
训练集比例的影响：论文比较了67%/33%和80%/20%两种分割比例。对于RI方法，改变比例（即改变交叉验证的折数L）对区间长度和覆盖概率影响不大。但对于SSRI，增大训练集比例（80%/20%）会导致置信区间明显变宽。这是因为评估集变小了，单次分割估计的方差变大，进而拉宽了聚合后的中位数区间。

实战解读：这些发现意味着，如果你追求的是结论的极度稳健，愿意牺牲一些检测细微效应的能力（因为区间太宽，很多效应会变得不显著），并且��算资源充足，那么SSRI是“安全牌”。如果你在计算资源受限的情况下，仍然希望得到合理的、相对紧致的置信区间，并且可以接受基于大样本理论的一些近似，那么RI是更高效的选择。基线调整无论对哪种方法都是有益的，应尽可能采用。

4.2 计算效率的量化对比

计算成本是绕不开的硬约束。论文中提到，在他们的模拟设定下（使用LASSO，B=250，L=3或5），SSRI方法的计算耗时大约是RI方法的40倍。这个倍数会随着你使用的ML模型复杂度呈指数级增长。

简单模型（如LASSO、逻辑回归）：SSRI可能仍在可接受范围内（例如数十分钟到几小时）。你可以利用并行计算将250次任务分配到多个核心上，大幅缩短实际挂钟时间。
复杂模型（如BART、深度神经网络、因果森林）：SSRI可能变得完全不可行。训练一次因果森林可能需要几分钟到几十分钟，250次就是几天甚至几周的计算量。此时，RI方法只需训练5-10次，优势是决定性的。

一个实用的决策流程图：

graph TD A[开始: 需要估计异质性效应并量化不确定性] --> B{计算资源是否充裕? <br> 且模型训练速度快?}; B -- 是 --> C{研究结论需要<br>极端稳健(保守)吗?}; B -- 否 --> D[选择随机化推断 RI]; C -- 是 --> E[选择样本分割稳健推断 SSRI]; C -- 否 --> F{样本量是否足够大<br> (通常>500)?}; F -- 是 --> D; F -- 否 --> G[谨慎考虑: RI可能仍可行，<br>但需检查覆盖概率或考虑SSRI]; D --> H[实施建议: 使用交叉验证L=5或10, 务必进行基线协变量调整]; E --> I[实施建议: 重复分割B>=250, 使用并行计算, 强烈建议进行基线调整]; G --> J[补充验证: 可在小规模模拟中验证RI在<br>你的数据生成过程下的覆盖概率];

4.3 适用场景与最终建议

综合来看，两种方法各有其最佳舞台：

选择 SSRI 当：
- 你正在进行一项非常关键的政策评估或临床试验分析，任何错误的结论（尤其是假阳性）代价极高，因此你需要最保守、最稳健的不确定性度量。
- 你使用的机器学习模型相对简单，训练速度快，且拥有强大的计算集群可以并行化数百次运行。
- 你的目标受众或审稿人非常看重方法的稳健性和保守性。
- 你希望有一个直观的、基于多次随机分割的结果分布图来展示结论的稳定性。
选择 RI 当：
- 计算资源是主要限制，你使用的是计算密集型模型。
- 你处于探索性分析阶段，需要在多种模型设定或分组方式间快速迭代。
- 你的样本量较大（例如 > 500），渐近理论可以提供较好的近似。
- 你希望置信区间更紧致，以提高检测出真实异质性的统计功效。

给实践者的最终建议：

不要盲从：没有“最好”的方法，只有“最适合”你当前研究问题和约束的方法。理解每种方法的假设和代价是关键。
基准测试：如果条件允许，可以在你的具体问题背景下，用模拟数据（即使是一个简化的版本）同时运行SSRI和RI，比较它们的区间长度、计算时间，以及（在模拟中可知真实效应时）覆盖概率。这能给你最直接的参考。
报告透明：无论选择哪种方法，在论文或报告中清晰说明你的选择、参数（B、L、K的值）、以及所使用的机器学习模型。对于SSRI，报告使用了中位数区间；对于RI，说明使用了交叉验证和方差校正。透明度比追求所谓“最优”方法更重要。
协变量调整是朋友：无论选择SSRI还是RI，都应该积极探索如何通过纳入基线协变量来改进估计精度。这可以通过在ML代理模型中包含协变量，或使用双稳健估计量等更高级的技术来实现。

异质性处理效应的估计和推断是一个激动人心且快速发展的领域。SSRI和RI代表了两种在稳健性和效率之间寻求平衡的优美思路。作为应用研究者，我们的任务不是死守一种方法，而是理解这些工具的特性，从而在面对“这个干预对谁更有效”这一根本问题时，能给出一个既严谨又实用的答案。

查看全文

http://www.jsqmd.com/news/876141/