当前位置：首页 > news >正文

朝着可靠的合成控制

news 2026/7/27 6:54:46

原文：towardsdatascience.com/towards-reliable-synthetic-control-156106a1a7cb?source=collection_archive---------10-----------------------#2024-04-16

cutoff_date_sc='2019-09-01'df_sc.loc[cutoff_date_sc:]=df_sc.loc[cutoff_date_sc:]*1.2

下图可视化了模拟的治疗效应和治疗组的真实反事实。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6f77c0f19357bf38fa330e96c1b3eba9.png

store1 的模拟 ATE 为 +20%，以及其真实反事实。图片来自作者。

给定合成数据，采用 Causalimpact 中的 BSTS 来估算合成的 ATE。然后，通过使用平均绝对百分比误差（MAPE）将估算值与实际 ATE 进行比较，以评估相应的操作。

[## GitHub — jamalsenouci/causalimpact：CausalImpact R 库的 Python 移植版

CausalImpact R 库的 Python 移植版。通过在…上创建帐户，贡献 jamalsenouci/causalimpact 开发。

github.com](https://github.com/jamalsenouci/causalimpact/raw/master?source=post_page-----156106a1a7cb--------------------------------)

接下来，让我们逐步介绍相关实验的操作，看看如何生成可靠的 ATE 估算。

为了验证这个假设，让我们评估使用每个单独的控制组及其自 2019 年 01 月 01 日以来的完整数据所产生的 ATE 估计，以了解相关性的影响。首先，计算治疗组（store1）与控制组（store2 到 499）之间的相关系数 [3]。

defcorrelation(x,y):shortest=min(x.shape[0],y.shape[0])returnnp.corrcoef(x.iloc[:shortest].values,y.iloc[:shortest].values)[0,1]

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/57a4d48a0f278fc2e34884da82890db2.png

预处理相关性的分布。图片来自作者。

然后，使用每个单独的对照组来预测反事实，估计 ATE，并报告 MAPE。在下图中，ATE 的平均 MAPE 及其 95%置信区间与相应的前期相关性一起绘制。这里，相关系数四舍五入到小数点后一位，以便汇总并提高分析中的统计显著性。从结果来看，明显可以看出，当对照组与治疗组的相关性增加时，估计显示出更高的可靠性。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8bb621fd0777b123764e2a4376e462a7.png

不同相关性水平下 ATE 的 MAPE。图片来源：作者。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d424496ce2675f0f2d080ddb982e67d5.png

示例展示相关性的影响。图片来源：作者。

模型拟合窗口

接下来，拟合窗口，即用于拟合模型的前期时间段，需要正确配置。这是因为过多的上下文可能导致失去时效性，而不足的上下文可能导致过拟合。

为了理解拟合窗口如何影响 ATE 估计的准确性，实验了从治疗日期前 1 个月到 8 个月之间的多种值。对于每个拟合窗口，单独评估 499 个对照组中的每一个单位，然后汇总计算带有 95%置信区间的平均 MAPE。如下面的图所示，存在一个接近 2 到 3 个月的最佳区间，可以优化可靠性。识别最优点超出了本讨论的范围，但值得注意的是，训练窗口需要精心选择。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5c883c0d27917417c399a6f213d8c4b5.png

不同训练窗口下 ATE 的 MAPE。图片来源：作者。

该图展示了两个例子：当对照组 199 的拟合窗口从 1 个月增加到 3 个月时，其 MAPE 从 0.89 降至 0.68，因为短窗口包含的知识不足以生成反事实。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d560703f856911244947cdd60cec747b.png

示例展示训练窗口的影响。图片来源：作者。

对照组数量

最后，所选对照组的数量也很重要。

通过调查不同控制数量（从 1 到 10）的估计准确性来验证这一假设。具体而言，对于每个控制数，计算基于 50 个随机控制集产生的估计值的平均 MAPE，每个控制集包含相应数量的控制组。此操作避免了不必要地枚举每一种可能的控制组合，同时在统计上控制了相关性。此外，每个估计的拟合窗口设置为 3 个月。

从下面的结果来看，增加控制数量总体上有助于更可靠的 ATE 估计。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/fe4b7d2cd20f809b7c4eadbc5493bc8e.png

不同控制数量下 ATE 的 MAPE。图片由作者提供。

以下示例展示了该效应。第一个估计使用 store311 生成，而第二个估计进一步加入了 store301 和 store312。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/dfcdc45b31e211a635dd8aa206a3fe2d.png

下面的示例展示了控制变量数量的影响。图片由作者提供。

结论

在本文中，我讨论了使 SC 估计更可靠的可能方法。基于各种合成数据的实验，前期处理的相关性、拟合窗口和控制单元数量被认为是优化估计的关键方向。寻找每个方法的最优值不在本讨论的范围之内。然而，如果你感兴趣，可以使用隔离的空白期进行参数搜索进行验证 [4]，这是一种可能的解决方案。

除非另有说明，所有图片均由作者制作。讨论内容的灵感来源于伟大的著作《合成控制法的应用》[1]。

参考文献

[1] Abadie, Alberto, 和 Jaume Vives-i-Bastida. “合成控制法的应用。”arXiv 预印本 arXiv:2203.06279(2022)。

[2] Brodersen, Kay H. 等. “使用贝叶斯结构时间序列模型推断因果影响。” (2015): 247–274。

[3] https://medium.com/@dreamferus/how-to-synchronize-time-series-using-cross-correlation-in-python-4c1fd5668c7a

[4] Abadie, Alberto, 和 Jinglong Zhao. “实验设计中的合成控制法。”arXiv 预印本 arXiv:2108.02196(2021)。

查看全文

http://www.jsqmd.com/news/920370/

不止是填参数：深入理解ZYNQ MPSoC DDR子系统时钟、位宽与PCB设计的关联

别再死记硬背了！用这个“电压转电流”的比喻，5分钟搞懂MOSFET跨导gm

ESP32开发板到手别吃灰！5分钟搞定VSCode环境，让板载LED闪起来

Realtek RTL8821CE驱动技术深度解析：Linux无线连接问题的硬核解决方案

别再只盯着速度了！USB3.0的LTSSM状态机，才是你高速外设频繁断连的元凶

保姆级教程：用YOLOv8和DeepSORT在Windows上实现视频行人车辆计数（附完整代码与环境配置）

数据工程模式

UniApp App端自定义UserAgent实战：从基础配置到高级场景（含plus.navigator API详解）

用OpenCV和C++手把手实现张正友相机标定：从棋盘格到内参矩阵的完整代码解析

别再纠结选哪个了！STM32CubeMX实战：手把手教你用硬件IIC和软件IIC读写AT24C02 EEPROM

从一次数据采集掉速排查说起：WIN10下优化485模块通信的完整避坑指南

不止于搭建：宝塔反代OpenAI API后，如何安全、高效地管理你的API Key与对接第三方应用

手把手教你用C语言实现FIR滤波器：从窗函数选择到Matlab验证的完整流程

Vue项目里Excel/Word/PDF预览的三种方案实战：从xlsx插件到vue-office组件

电赛单相逆变器项目复盘：F280049C的PID参数整定与并联控制那些“坑”

告别驱动烦恼：手把手教你用免驱Console线连接思科/华为交换机（附串口查看技巧）

TPU 不出售，但为什么？

别再为多设备同步发愁了！NI-DAQmx通道扩展保姆级配置指南（含CompactDAQ/PXI实战）

群晖NAS硬盘不够用？别急着换新！手把手教你用USB硬盘盒低成本扩容（附型号推荐）

实测HCNR201A光耦隔离电路：手把手教你从原理图到PCB，搞定1MHz带宽信号隔离

追踪图中的变压器

云手机跨设备无缝衔接

Kubernetes新手必看：kubectl get nodes报错localhost:8080？三步搞定kubeconfig配置

量子优化与LLM-QUBO框架：解决NP难问题的关键技术

别再手动配对了！用STM32+ECB02蓝牙模块实现自动重连主从通信（附完整代码）

ABAP屏幕开发避坑指南：下拉框（Listbox）从创建到交互的完整流程

CM211-1刷Armbian翻车实录：从S905L3识别错误到网络修复的完整排坑指南

用Python玩转模拟退火算法：从物理退火到TSP求解的保姆级实战

用Python搞定身份证号码校验：从PTA真题到实际数据清洗的完整指南

从手机到数据中心：实战解析LPDDR5 Link ECC与DDR5 On-die ECC如何守护你的数据

使估计的处理效应接近真实值

介绍

简明的合成控制

迈向可靠的合成控制的行动

一个通过易于使用的因子和生成器生成合成时间序列数据的库 — Nike-Inc/timeseries-generator

CausalImpact R 库的 Python 移植版。通过在…上创建帐户，贡献 jamalsenouci/causalimpact 开发。

结论

参考文献

相关文章：