赞
踩
标题:DESCN: Deep Entire Space Cross Networks for Individual Treatment Effect Estimation
链接:https://arxiv.org/pdf/2207.09920.pdf
代码:https://github.com/kailiang-zhong/DESCN
会议:KDD 2022
公司:阿里
1. 导读
本文主要是针对因果推断中的因果效应估计提出的方法,传统上,ITE 是通过在各自的样本空间中分别对实验组和对照组的响应函数进行建模来预测的。然而,这种方法在实践中通常会遇到两个问题:由于干预偏差导致实验组和对照组之间的分布不同;以及样本量的不平衡。本文提出了深度整个空间交叉网络(DESCN)从端到端的角度进行建模。DESCN通过交叉网络以多任务学习的方式捕获干预的倾向、响应和隐藏干预效果的综合信息。
本文的特点是在X-learner的基础上,基于多任务学习的思想,构建了一种同x-learner思想的端到端的学习方式,针对干预偏差估计倾向性分数,针对数据不平衡采用X的方式。
2. 方法
令观察样本为,y,x,w分别表示效果outcome,即标签;样本特征;是否被干预。被干预的倾向性得分估计表示为。令和分别表示实验组和对照组的样本。本文方法在以下三个假设下进行:
一致性:如果样本i被施加干预,则可以观察到一致的相关潜在输出
可忽略性:没有其他未观察到的混杂因子
重叠:干预的施加是不确定的,即存在倾向性分数
干预的响应TR和对照的响应CR可以表示为下式,则ITE可以估计为,通过建模估计得到,从而得到估计。
在这过程中主要会面临两个问题:
干预偏差:即存在倾向性分数,实验组和对照组的分布存在差异
数据不平衡:即实验组和对照组的样本量存在显著差异
如图1a所示为ESN网络,和以往的two model类型的模型将实验组和对照组样本分别建模为两个模型不同,ESN是将倾向性分数,实验组,对照组的建模放在一个模型中,通过共享层对不同的数据提取embedding。然后,对于每个数据计算倾向性得分π,对实验组数据进入干预分支得到ESTR,对于对照组数据进入对照分支得到ESCR。从而可以得到以下损失函数,
合并后得到:
如图1b所示为X-network,是基于X-learner改进得到的端到端学习方法,整体流程有点类似于将X-learner组合为一个端到端的学习方式。通过共享层后,左右两个分支分别对干预组数据和对照组数据进行建模,中间的PTE(Pseudo Treatment Effe)得到为干预带来的隐藏的效果(其实这里建模的就是X-learner中的D,不熟悉X-learner的小伙伴网上有很多资料),然后结合反事实,即干预的数据如果没有干预的话可以得到什么样的效果,反之亦然,公式如下,看公式应该会更清晰一些。文中的意思是可以放大uplift信号,使得学习过程更容易,不过笔者在代码中并为看到这步,是直接,当然也可能是我看错了,欢迎指正。
DESCN就是将上面两者结合,结构如图1c,总体损失函数如下,
3. 结果
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。