当前位置: 首页 > news >正文

连续变量处理的因果推断技术突破

在科学研究和商业活动中,人们常常关注某项“处理”(例如更改网页字体)对“响应变量”(例如访客在页面的停留时长)的因果效应。通常,处理是二元的:页面使用一种字体或另一种。但有时处理是连续的。例如,软饮料制造商可能希望测试在新饮料中添加柠檬风味剂的一系列可能用量。

通常,存在既影响处理又影响响应变量的混杂因素,因果估计必须对其进行考量。虽然当处理为二元时,处理混杂因素的方法已得到充分研究,但连续处理下的因果推断则更具挑战性且研究相对不足。

在今年举行的国际机器学习大会上,某机构的同事提出了一种新方法,用于估计连续变化处理的效果。该方法结合了端到端机器学习模型与倾向得分加权和熵平衡的概念。

该方法与四种前代方法(包括传统的熵平衡)在两个不同的合成数据集上进行了比较:一个是处理与响应变量关系为线性的数据集,另一个是非线性关系的数据集。在线性数据集上,该方法比表现最佳的前代方法将均方根误差降低了27%;在非线性数据集上,改进幅度达到38%。

倾向得分

连续处理使得因果推断更为困难,主要是因为它们为每个单元(例如,每个受试者)引入了不可数的潜在结果,而每个单元仅能观察到其中一个结果,并且各单元间的结果也不同。例如,在一毫升到两毫升之间存在无限种柠檬风味剂用量,对应着无限种可能的顾客偏好。在连续处理设置中,因果推断模型将连续输入映射到连续输出,即响应曲线。

如果两个变量都受到第三个变量(即混杂因素)的影响,则可能难以确定它们之间的因果关系。考虑一个简单的因果图,涉及处理 a、响应变量 y 以及混杂因素 xx 同时影响 ay

在连续处理的情境下,标准处理混杂因素的方法是通过倾向得分加权。本质上,倾向得分加权会削弱两个同时受混杂因素影响的变量之间的效应。例如,在上述因果图中,我们会根据给定 xa 的逆概率来加权 ay 之间的边。也就是说,给定 xa 的可能性越大,我们就认为 ay 的影响越小。

然而,某些单元的倾向得分可能非常大,导致数据不平衡,进而引发估计不稳定和推断不确定。熵平衡是一种纠正此问题的方法,它通过选择权重以最小化权重之间的差异(即最大化其熵)来实现。

端到端平衡

新算法基于熵平衡,并通过端到端优化学习权重,以直接最大化因果推断的准确性。称之为端到端平衡。

下图展示了该方法。变量 {xi, ai} 是数据集中的混杂因素-处理对,lq 是一个神经网络,它学习在给定混杂因素-处理对的情况下生成一组熵平衡权重 {wi}。函数 µ-bar 是一个随机选择的响应函数,即一个给定处理 a 计算响应变量值 ȳ 的函数。

因此,三元组 {xi, ai, ȳi} 构成了一个合成数据集:真实的 xa,但生成了合成的 y。在训练过程中,神经网络学习生成能够重现已知响应函数 µ-bar 的熵平衡权重。一旦网络训练完成,就将其应用于真实数据集(包含真实的 y)以估计真实的响应函数 µ-hat

在论文中提供了理论分析,证明了该方法的一致性。同时还研究了合成数据生成过程中错误设定的影响。结果表明,即使初始选择的随机响应函数 µ-bar 非常不准确,也不会阻止模型收敛到一个对真实响应函数 µ-hat 的良好估计上。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/77148/

相关文章:

  • 常熟市华懋化工设备有限公司的规模怎样?口碑好不好 - myqiye
  • 2025年火锅料品牌大排名,告诉你哪种最好! - 百誉集团
  • 盲盒小程序都是怎么玩的?有是怎么裂变的?
  • 口碑好的仪表品牌推荐排行?仪表品牌 仪表公司 仪表工厂 仪表厂家 仪表厂商 仪表生产厂家
  • 2025年澳标开关品牌企业、澳标开关大型厂家、澳标开关专业品 - 工业品牌热点
  • 2025年中国五大恒温酒窖设计公司推荐:求推荐酒窖设计专业公 - mypinpai
  • 代码之恋(第十篇:失效API与最佳Patch)
  • 深入解析:【Vue】第五篇
  • Android内核高危漏洞:CVE-2025-36922权限提升深度解析
  • 2025反应釜按需定制TOP5实力厂商推荐:甄选品牌厂家助力 - myqiye
  • 6款reMarkable客户端全面评测:告别云同步烦恼的终极方案
  • 2025年五大IP66户外插座服务商推荐:看看哪家合作案例多 - 工业推荐榜
  • TortoiseSVN排除svn项目里的文件
  • 2025年高纯烷基化油实力厂家推荐榜单:二硫醚‌/石灰酸‌/三甲氧基甲烷源头厂家精选 - 品牌推荐官
  • 深度解析GPT-5.2:新功能、新变化,如何让你的工作更高效?
  • 2025广东陶瓷品牌靠谱推荐榜 - 真知灼见33
  • 2025澳标开关品牌定制厂家TOP5权威推荐:资质齐全+售后 - 工业品牌热点
  • 揭秘装配式污水处理设备Top5:这家品牌竟让客户主动推荐! - 百誉集团
  • 数字电路模拟程序两次题目集总结报告
  • 2025年四川火锅料品牌TOP榜,你常吃的上榜没? - 百誉集团
  • 黑客技术水深!普通人不要随便碰
  • 离心风机公司排行榜top1!离心风机哪个品牌好?
  • 2025年中国高性价比酒窖设计公司排名:酒窖设计帮我推荐几家 - mypinpai
  • Markn深度体验:解锁高效Markdown文档阅读的终极方案
  • 在线服务器的应用场景都有哪些?
  • 智能家居平台革新:Home Assistant Core 2025.4.0b10技术架构深度解析
  • 2025年中国十大IP设计公司推荐:实力强的老牌IP设计公司 - myqiye
  • RFID+机械臂:工业零部件加工后智能分拣
  • 2025化工外贸邮箱营销排行榜:亿企邦领跑,三强格局初显 - GEO排行榜
  • 2025环保型反渗透膜制膜设备专业厂家TOP5推荐:水处理膜 - 工业品牌热点