赞
踩
阅读James M. Robins的文章Marginal Structural Models and Causal Inference in Epidemiology[1]后的笔记
边缘结构模型(Marginal structural models,MSMs)是一种因果模型,用于调整影响随时间变化的处理/治疗方案(time-varying treatments)的时依性混杂因子(time-dependent confounding),使得我们能无偏估计因果效应(unbiased estimation of casual effects)[2]。
传统的估计时变性处理的因果效应的方法是对结果的概率建立回归方程,将过去的处理(past treatment/exposure)和过去的混杂因子(past confounder)作为方程的变量,通常使用分层法等(比如逻辑回归或者Cox比例风险回归模型)。这些方法,无论是否对混杂因子进行调整,都会存在偏倚(biased)。所以提出了MSM模型。
时依性混杂因子的定义:⑴是时依性的协变量,能够用于预测目标事件(是目标事件的风险因子),且能预测处理;⑵过去的预测方案能预测此变量;⑶自身过去的状态能预测现在的状态。
记时间为
k
k
k,将可观测的对结果有影响的风险因子记为
L
k
L_k
Lk,将不可观测(即无法收集这个变量的值)的对结果有影响的风险因子记为
U
k
U_k
Uk,将时变性处理记为
A
k
A_k
Ak,将结果记为
Y
Y
Y。MSM假设不存在影响处理的不可观测风险因子,即不可测假设(untestable assumption),因此MSM假设下的因果图应该如图(a)所示。
MSM使用逆处理概率加权法(Inverse Probability of Treatment Weighting,IPTW)消去可观测的混杂因子对处理的影响。也就是说采用IPTW生成各对象组的伪分布,每组处理(treatment)的伪分布都相同,使得处理相对于混杂因子独立,反映在图上就是删除了从混杂因子到处理的弧,处理后的因果图如图(b)所示。
取单个时刻(如图(b)右侧子图所示)为例,假设取值都是二元的,处理不受混杂因子影响。使用粗风险差/粗危险差/粗率差(crude risk difference,RD)、粗风险比/粗相对危险度/粗危险比/粗率比(crude risk ratio,RR)、粗优势比/粗比值比(crude odds ratio,OR)估计处理对结果的影响(因果效应)。三者的计算公式如下:
c
R
D
=
p
r
[
Y
=
1
∣
A
0
=
1
]
−
p
r
[
Y
=
1
∣
A
0
=
0
]
(1)
cRD=pr[Y=1|A_0=1]-pr[Y=1|A_0=0]\tag{1}
cRD=pr[Y=1∣A0=1]−pr[Y=1∣A0=0](1)
c
R
R
=
p
r
[
Y
=
1
∣
A
0
=
1
]
p
r
[
Y
=
1
∣
A
0
=
0
]
(2)
cRR=\frac{pr[Y=1|A_0=1]}{pr[Y=1|A_0=0]}\tag{2}
cRR=pr[Y=1∣A0=0]pr[Y=1∣A0=1](2)
c
O
R
=
p
r
[
Y
=
1
∣
A
0
=
1
]
/
p
r
[
Y
=
1
∣
A
0
=
0
]
p
r
[
Y
=
0
∣
A
0
=
1
]
/
p
r
[
Y
=
0
∣
A
0
=
0
]
(3)
cOR=\frac{pr[Y=1|A_0=1]/pr[Y=1|A_0=0]}{pr[Y=0|A_0=1]/pr[Y=0|A_0=0]}\tag{3}
cOR=pr[Y=0∣A0=1]/pr[Y=0∣A0=0]pr[Y=1∣A0=1]/pr[Y=1∣A0=0](3)
前者是从观测数据角度得到因果的。从因果分析角度出发,处理的因果对比形式与以上计算公式相同,但是涉及了反事实(counterfactual)变量的概念。将被处理后的结果记为
Y
a
0
=
1
Y_{a_0=1}
Ya0=1,将未受到处理的结果记为
Y
a
0
=
0
Y_{a_0=0}
Ya0=0,以上两者无法被同时观测到,这就是反事实的概念。则这个个体的因果效应为
Y
a
0
=
1
−
Y
a
0
=
0
Y_{a_0=1}-Y_{a_0=0}
Ya0=1−Ya0=0。相应的,因果风险差(causal risk difference)、因果风险比(causal risk ratio)、因果优势比(causal odds ratio)的计算公式如下:
c
a
u
s
a
l
R
D
=
p
r
[
Y
a
0
=
1
=
1
]
−
p
r
[
Y
a
0
=
0
=
1
]
(4)
causal\ RD=pr[Y_{a_0=1}=1]-pr[Y_{a_0=0}=1]\tag{4}
causal RD=pr[Ya0=1=1]−pr[Ya0=0=1](4)
c
a
u
s
a
l
R
R
=
p
r
[
Y
a
0
=
1
=
1
]
p
r
[
Y
a
0
=
0
=
1
]
(5)
causal\ RR=\frac{pr[Y_{a_0=1}=1]}{pr[Y_{a_0=0}=1]}\tag{5}
causal RR=pr[Ya0=0=1]pr[Ya0=1=1](5)
c
a
u
s
a
l
O
R
=
p
r
[
Y
a
0
=
1
=
1
]
/
p
r
[
Y
a
0
=
0
=
1
]
p
r
[
Y
a
0
=
1
=
0
]
/
p
r
[
Y
a
0
=
0
=
0
]
(6)
causal\ OR=\frac{pr[Y_{a_0=1}=1]/pr[Y_{a_0=0}=1]}{pr[Y_{a_0=1}=0]/pr[Y_{a_0=0}=0]}\tag{6}
causal OR=pr[Ya0=1=0]/pr[Ya0=0=0]pr[Ya0=1=1]/pr[Ya0=0=1](6)
当处理不受混杂因子影响时,以上六个公式两两相等。
c
a
u
s
a
l
R
D
causal\ RD
causal RD、
c
a
u
s
a
l
R
R
causal\ RR
causal RR和
c
a
u
s
a
l
O
R
causal\ OR
causal OR可以分别表示为自变量是处理
a
0
a_0
a0的三种模型,分别为线性(linear)、对数线性(log linear)和线性逻辑模型(linear logistic model),考虑单时刻情况,将(7-9)记为因果模型:
p
r
[
Y
a
0
=
1
]
=
ψ
0
+
ψ
1
a
0
(7)
pr[Y_{a_0}=1]=\psi_0+\psi_1a_0\tag{7}
pr[Ya0=1]=ψ0+ψ1a0(7)
log
p
r
[
Y
a
0
=
1
]
=
θ
0
+
θ
1
a
0
(8)
\log pr[Y_{a_0}=1]=\theta_0+\theta_1a_0\tag{8}
logpr[Ya0=1]=θ0+θ1a0(8)
l
o
g
i
t
p
r
[
Y
a
0
=
1
]
=
β
0
+
β
1
a
0
(9)
logit\ pr[Y_{a_0}=1]=\beta_0+\beta_1a_0\tag{9}
logit pr[Ya0=1]=β0+β1a0(9)
分别将
a
0
=
1
a_0=1
a0=1和
a
0
=
0
a_0=0
a0=0代入(7-9)式,再代入到(4-6)式,可以得到
c
a
u
s
a
l
R
D
=
ψ
1
causal\ RD=\psi_1
causal RD=ψ1、
c
a
u
s
a
l
R
R
=
e
θ
1
causal\ RR=e^{\theta_1}
causal RR=eθ1、
c
a
u
s
a
l
O
R
=
e
β
1
causal\ OR=e^{\beta_1}
causal OR=eβ1。将(7-9)记为饱和MSM模型(saturated MSMs)。
同样的,从观测数据角度可以得到粗风险差、粗风险比和粗优势比的饱和线性、对数和线性逻辑模型,将(10-12)记为数据模型:
p
r
[
Y
=
1
∣
A
0
=
a
0
]
=
ψ
0
′
+
ψ
1
′
a
0
(10)
pr[Y=1|A_0=a_0]=\psi_0^{'}+\psi_1^{'}a_0\tag{10}
pr[Y=1∣A0=a0]=ψ0′+ψ1′a0(10)
log
p
r
[
Y
=
1
∣
A
0
=
a
0
]
=
θ
0
′
+
θ
1
′
a
0
(11)
\log pr[Y=1|A_0=a_0]=\theta_0^{'}+\theta_1^{'}a_0\tag{11}
logpr[Y=1∣A0=a0]=θ0′+θ1′a0(11)
l
o
g
i
t
p
r
[
Y
=
1
∣
A
0
=
a
0
]
=
β
0
′
+
β
1
′
a
0
(12)
logit\ pr[Y=1|A_0=a_0]=\beta_0^{'}+\beta_1^{'}a_0\tag{12}
logit pr[Y=1∣A0=a0]=β0′+β1′a0(12)
可以得到
c
R
D
=
ψ
1
′
cRD=\psi_1^{'}
cRD=ψ1′、
c
R
R
=
e
θ
1
′
cRR=e^{\theta_1^{'}}
cRR=eθ1′、
c
O
R
=
e
β
1
′
cOR=e^{\beta_1^{'}}
cOR=eβ1′。(10-12)表示的模型是为观测到的数据关联关系构建的模型,因此仅当处理是非混淆的情况下,因果模型(7-9)的参数才与数据模型(10-12)的参数相同。
对边缘结构模型MSM的解释如下:
当处理存在混淆时(受混杂因子影响),因果模型的参数将与数据模型的参数不相等。MSM模型假设不存在不可观测的混杂因子(No unmeasured confounders),那么就可以采用加权分析方法去除混杂因子的影响。
设
i
i
i为种类(Subject)编号,每个种类的权重记为式(13)。
w
i
=
1
p
r
[
A
0
=
a
0
i
∣
L
0
=
l
0
i
]
(13)
w_i=\frac{1}{pr[A_0=a_{0i}|L_0=l_{0i}]} \tag{13}
wi=pr[A0=a0i∣L0=l0i]1(13)
l
0
i
l_{0i}
l0i是第
i
i
i类的
L
0
L_0
L0观测值。
w
i
w_i
wi的值可以通过式(14)使用回归方法进行估计,统计不同的
a
0
a_0
a0和
l
0
l_0
l0并回归得到参数。
l
o
g
i
t
p
r
[
A
0
=
a
0
∣
L
0
=
l
0
]
=
α
0
+
α
1
l
0
(14)
logit\ pr[A_0=a_0|L_0=l_0]=\alpha_0+\alpha_1l_0 \tag{14}
logit pr[A0=a0∣L0=l0]=α0+α1l0(14)
当取
A
0
=
1
A_0=1
A0=1时,
w
i
=
1
+
exp
(
−
a
^
0
−
a
^
1
l
0
i
)
w_i=1+\exp(-\hat{a}_0-\hat{a}_1l_{0i})
wi=1+exp(−a^0−a^1l0i);当取
A
0
=
0
A_0=0
A0=0时,
w
i
=
1
+
exp
(
a
^
0
+
a
^
1
l
0
i
)
w_i=1+\exp(\hat{a}_0+\hat{a}_1l_{0i})
wi=1+exp(a^0+a^1l0i)。这种方法能消除混杂因子影响的原因在于,IPTW为每类复制
w
i
w_i
wi份,形成伪总体分布,这种情况下,⑴相同的
A
0
A_0
A0取值时,任意的
L
0
L_0
L0取值概率都相同,因此
A
0
A_0
A0是非混淆的;⑵因为
A
0
A_0
A0是非混淆的,因此在上述伪分布数据中,数据模型得到的因果效应将与因果模型得到的结果一致。
当处理多层非二值(multilevel treatment)、是长为
N
N
N的序列值(比如为服药剂量,0~15mg共
N
=
16
N=16
N=16种取值,且剂量是线性变化的)时,相应的潜在结果(potential outcomes)也将有多种取值(比如16种)。这种情况下,为了构造饱和模型必须设置多个参数(比如16个),因此无法再使用饱和模型进行建模。
为了克服这种问题,假设处理效果是线性变化的(即简化剂量反应关系,parsimonious dose-response relationship),那么可以将因果模型写作非饱和的式(15)。
l
o
g
i
t
p
r
[
Y
a
0
=
1
]
=
β
0
+
β
1
a
0
(15)
logit\ pr[Y_{a_0}=1]=\beta_0+\beta_1a_0 \tag{15}
logit pr[Ya0=1]=β0+β1a0(15)
其中,
β
1
\beta_1
β1是斜率参数。当剂量增加1时,
c
a
u
s
a
l
O
R
causal\ OR
causal OR增加
e
β
1
e^{\beta_1}
eβ1。对应的数据模型就可以写作式(16)。
l
o
g
i
t
p
r
[
Y
=
1
∣
A
0
=
a
0
]
=
β
0
′
+
β
1
′
a
0
(16)
logit\ pr[Y=1|A_0=a_0]=\beta_0^{'}+\beta_1^{'}a_0 \tag{16}
logit pr[Y=1∣A0=a0]=β0′+β1′a0(16)
与前面的分析相同,当处理是非混淆的情况下,两者估计的参数是相同的。当处理仅受可观测混杂因子
L
0
L_0
L0影响时,可以使用IPTW调节种类分布达到去混杂的效果。对于序列变量,
w
i
=
1
/
p
r
[
A
0
=
a
0
i
∣
L
0
=
l
0
i
]
w_i=1/pr[A_0=a_{0i}|L_0=l_{0i}]
wi=1/pr[A0=a0i∣L0=l0i]可由式(17)进行估计。
p
r
[
A
0
=
a
0
∣
L
0
=
l
0
]
=
exp
(
α
0
a
0
+
α
1
l
0
)
1
+
Σ
j
=
1
N
exp
(
α
0
j
+
α
1
l
0
)
,
a
0
=
1
,
…
,
N
;
pr[A_0=a_0|L_0=l_0]=\frac{\exp(\alpha_{0a_0}+\alpha_1l_0)}{1+\Sigma_{j=1}^N\exp(\alpha_{0j}+\alpha_1l_0)},\ a_0=1,\dots,N;
pr[A0=a0∣L0=l0]=1+Σj=1Nexp(α0j+α1l0)exp(α0a0+α1l0), a0=1,…,N;
p
r
[
A
0
=
0
∣
L
0
=
l
0
]
=
1
1
+
Σ
j
=
1
N
exp
(
α
0
j
+
α
1
l
0
)
,
a
0
=
1
,
…
,
N
;
(17)
pr[A_0=0|L_0=l_0]=\frac{1}{1+\Sigma_{j=1}^N\exp(\alpha_{0j}+\alpha_1l_0)},\ a_0=1,\dots,N; \tag{17}
pr[A0=0∣L0=l0]=1+Σj=1Nexp(α0j+α1l0)1, a0=1,…,N;(17)
式(16)可以理解为类Softmax多元逻辑回归函数,在不处理时(剂量为0)分子设为常量1。
当某些处理状态
A
0
A_0
A0与混杂因子
L
0
L_0
L0高度相关时,很有可能某些状态组合会缺乏观测数据。这会导致样本数量非常少,继而由
w
i
w_i
wi调整得到的伪总体分布中该部分占比非常大,会影响分析效果。稳定权重
s
w
i
sw_i
swi记为式(18)。
s
w
i
=
p
r
[
A
0
=
a
0
i
]
p
r
[
A
0
=
a
0
i
∣
L
0
=
l
0
i
]
(18)
sw_i=\frac{pr[A_0=a_{0i}]}{pr[A_0=a_{0i}|L_0=l_{0i}]} \tag{18}
swi=pr[A0=a0i∣L0=l0i]pr[A0=a0i](18)
估计
s
w
i
sw_i
swi的值需要计算分子和分母两部分,分母可以采用式(16)计算,分子计算公式见式(19)。
p
r
[
A
0
=
a
0
]
=
exp
(
α
0
a
0
∗
)
1
+
Σ
j
=
1
N
exp
(
α
0
j
∗
)
,
a
0
=
1
,
…
,
N
;
pr[A_0=a_0]=\frac{\exp(\alpha_{0a_0}^*)}{1+\Sigma_{j=1}^N\exp(\alpha_{0j}^*)},\ a_0=1,\dots,N;
pr[A0=a0]=1+Σj=1Nexp(α0j∗)exp(α0a0∗), a0=1,…,N;
p
r
[
A
0
=
0
]
=
1
1
+
Σ
j
=
1
N
exp
(
α
0
j
∗
)
,
a
0
=
1
,
…
,
N
;
(19)
pr[A_0=0]=\frac{1}{1+\Sigma_{j=1}^N\exp(\alpha_{0j}^*)},\ a_0=1,\dots,N; \tag{19}
pr[A0=0]=1+Σj=1Nexp(α0j∗)1, a0=1,…,N;(19)
α
0
a
0
∗
\alpha_{0a_0}^*
α0a0∗的星号表明当
A
0
A_0
A0是混淆的情况时此参数与
α
0
a
0
\alpha_{0a_0}
α0a0不相同。这是因为在计算
α
0
a
0
\alpha_{0a_0}
α0a0时是以不同的
L
0
L_0
L0作为条件的,也就是说分别对不同的子集进行计算,当存在混淆时,各子集的分布不相同,与总体的分布自然不同。
当处理变量是连续的情况下,
w
i
w_i
wi的方差趋于无穷,因此不能使用。假设
A
0
A_0
A0服从正态分布,则
s
w
i
sw_i
swi可写作式(20),其中
f
(
∗
)
f(*)
f(∗)是概率密度函数。
s
w
i
=
f
(
a
0
i
)
f
(
a
0
i
∣
l
0
i
)
(20)
sw_i=\frac{f(a_{0i)}}{f(a_{0i}|l_{0i})} \tag{20}
swi=f(a0i∣l0i)f(a0i)(20)
为了估计
f
(
a
0
i
∣
l
0
i
)
f(a_{0i}|l_{0i})
f(a0i∣l0i),给定
L
0
L_0
L0,
A
0
∼
N
(
α
0
+
α
1
L
0
,
σ
2
)
A_0\sim N(\alpha_0+\alpha_1L_0,\sigma^2)
A0∼N(α0+α1L0,σ2),因此
f
(
a
0
i
∣
l
0
i
)
f(a_{0i}|l_{0i})
f(a0i∣l0i)可表示为式(21);为了估计
f
(
a
0
i
)
f(a_{0i})
f(a0i),给定
L
0
L_0
L0,
A
0
∼
N
(
α
0
∗
,
σ
∗
2
)
A_0\sim N(\alpha_0^*,{\sigma^*}^2)
A0∼N(α0∗,σ∗2),因此
f
(
a
0
i
∣
l
0
i
)
f(a_{0i}|l_{0i})
f(a0i∣l0i)可表示为式(22)。
f
(
a
0
i
∣
l
0
i
)
=
1
2
π
σ
^
2
e
−
[
a
0
i
−
(
α
^
0
+
α
^
1
l
0
i
)
]
2
2
σ
^
2
(21)
f(a_{0i}|l_{0i})=\frac{1}{\sqrt{2\pi\hat\sigma^2}}e^{-\frac{[a_{0i}-(\hat\alpha_0+\hat\alpha_1l_{0i})]^2}{2\hat\sigma^2}} \tag{21}
f(a0i∣l0i)=2πσ^2
1e−2σ^2[a0i−(α^0+α^1l0i)]2(21)
f
(
a
0
i
∣
l
0
i
)
=
1
2
π
σ
^
∗
2
e
−
[
a
0
i
−
α
^
0
∗
]
2
2
σ
^
∗
2
(22)
f(a_{0i}|l_{0i})=\frac{1}{\sqrt{2\pi{\hat\sigma^*}^2}}e^{-\frac{[a_{0i}-\hat\alpha_0^*]^2}{2{\hat\sigma^*}^2}} \tag{22}
f(a0i∣l0i)=2πσ^∗2
1e−2σ^∗2[a0i−α^0∗]2(22)
记上标
A
ˉ
\bar A
Aˉ为时序处理序列(历史剂量),
A
ˉ
=
(
A
0
,
…
,
A
k
)
\bar A=(A_0,\dots,A_k)
Aˉ=(A0,…,Ak)。其他变量不再赘述。在最简单的情况下,即每个处理
a
i
a_i
ai都是二值的,那么
Y
a
ˉ
Y_{\bar a}
Yaˉ有
2
k
2^k
2k种可能取值。因此,在这里假设仍然服从简化剂量反应关系,则线性逻辑MSM因果模型可以写作式(23)。
l
o
g
i
t
p
r
[
Y
a
ˉ
=
1
]
=
β
0
+
β
1
c
u
m
(
a
ˉ
)
(23)
logit\ pr[Y_{\bar a}=1]=\beta_0+\beta_1cum(\bar a) \tag{23}
logit pr[Yaˉ=1]=β0+β1cum(aˉ)(23)
式中
c
u
m
(
a
ˉ
)
=
Σ
a
k
cum(\bar a)=\Sigma a_k
cum(aˉ)=Σak是历史处理的累计剂量和。相应的,数据模型可以写作式(24)。
l
o
g
i
t
p
r
[
Y
=
1
∣
A
ˉ
=
a
ˉ
]
=
β
0
′
+
β
1
′
c
u
m
(
a
ˉ
)
(24)
logit\ pr[Y=1|\bar A=\bar a]=\beta_0^{'}+\beta_1^{'}cum(\bar a) \tag{24}
logit pr[Y=1∣Aˉ=aˉ]=β0′+β1′cum(aˉ)(24)
多时刻建模传统方法的不足:使用未调整权重的逻辑回归模型将不可避免地引入偏倚。这是因为⑴
L
k
L_k
Lk是后续处理的混杂因子,因此必须调整;⑵但同时
L
k
L_k
Lk是由前面处理影响的,因此不能被标准回归方法调整。因此使用
L
k
L_k
Lk计算
s
w
i
sw_i
swi用于处理
A
k
A_k
Ak的去混杂,而不是将
L
k
L_k
Lk加入回归方程中,这也是本文的目的所在。
在仅有
L
k
L_k
Lk的混淆影响下,可以使用
s
w
i
sw_i
swi得到无偏估计,见式(25)。
s
w
i
=
∏
k
=
0
K
p
r
[
A
k
=
a
k
i
∣
A
ˉ
k
−
1
=
a
ˉ
(
k
−
1
)
i
]
∏
k
=
0
K
p
r
[
A
k
=
a
k
i
∣
A
ˉ
k
−
1
=
a
ˉ
(
k
−
1
)
i
,
L
ˉ
k
=
l
ˉ
k
i
]
(25)
sw_i=\frac{\prod_{k=0}^K pr[A_k=a_{ki}|\bar A_{k-1}=\bar a_{(k-1)i}]}{\prod_{k=0}^K pr[A_k=a_{ki}|\bar A_{k-1}=\bar a_{(k-1)i},\bar L_k=\bar l_{ki}]} \tag{25}
swi=∏k=0Kpr[Ak=aki∣Aˉk−1=aˉ(k−1)i,Lˉk=lˉki]∏k=0Kpr[Ak=aki∣Aˉk−1=aˉ(k−1)i](25)
对
s
w
i
sw_i
swi的求解分为两部分,第一部分建立回归模型,第二部分进行参数估计并代入回
s
w
i
sw_i
swi计算公式。
对
s
w
i
sw_i
swi的分母和分子建立回归模型,需要考虑处理和混杂因子的实际物理意义。例如若处理的概率与日期
k
k
k、前两天的处理、今天和昨天的混杂因子、昨天的处理和今天的混杂因子相互作用、和基线混杂因子(baseline covariates)有关,那么模型可以写作式(26)(这里同样假设处理是二值的)。
l
o
g
i
t
p
r
[
A
k
=
1
∣
A
ˉ
k
−
1
=
a
ˉ
k
−
1
,
L
ˉ
k
=
l
ˉ
k
]
=
α
0
+
α
1
k
+
α
2
a
k
−
1
+
α
3
a
k
−
2
+
α
4
l
k
+
α
5
l
k
−
1
+
α
6
a
k
−
1
l
k
+
α
+
7
l
0
logit\ pr[A_k=1|\bar A_{k-1}=\bar a_{k-1},\bar L_k=\bar l_k]=\alpha_0+\alpha_1k+\alpha_2a_{k-1}+\alpha_3a_{k-2}\\ +\alpha_4l_k+\alpha_5l_{k-1}+\alpha_6a_{k-1}l_k+\alpha+7l_0
logit pr[Ak=1∣Aˉk−1=aˉk−1,Lˉk=lˉk]=α0+α1k+α2ak−1+α3ak−2+α4lk+α5lk−1+α6ak−1lk+α+7l0
l
o
g
i
t
p
r
[
A
k
=
1
∣
A
ˉ
k
−
1
=
a
ˉ
k
−
1
]
=
α
0
∗
+
α
1
∗
k
+
α
2
∗
a
k
−
1
+
α
3
∗
a
k
−
2
(26)
logit\ pr[A_k=1|\bar A_{k-1}=\bar a_{k-1}]=\alpha_0^*+\alpha_1^*k+\alpha_2^*a_{k-1}+\alpha_3^*a_{k-2} \tag{26}
logit pr[Ak=1∣Aˉk−1=aˉk−1]=α0∗+α1∗k+α2∗ak−1+α3∗ak−2(26)
对于每类
i
i
i,可以由式(25)求得
p
r
pr
pr的最大似然估计值
p
^
0
i
,
…
,
p
^
K
i
\hat p_{0i},\dots,\hat p_{Ki}
p^0i,…,p^Ki和
p
^
1
i
∗
,
…
,
p
^
K
i
∗
\hat p_{1i}^*,\dots,\hat p_{Ki}^*
p^1i∗,…,p^Ki∗。当
A
k
=
0
A_k=0
Ak=0时,显然估计值为
1
−
p
^
0
i
1-\hat p_{0i}
1−p^0i,不再赘述。因此,将估计值代入式(24),可得
s
w
i
sw_i
swi的计算式(27)。
s
w
i
=
∏
k
=
0
K
(
p
^
k
i
∗
)
a
k
i
(
1
−
p
^
k
i
∗
)
1
−
a
k
i
∏
k
=
0
K
(
p
^
k
i
)
a
k
i
(
1
−
p
^
k
i
)
1
−
a
k
i
(27)
sw_i=\frac{\prod_{k=0}^K (\hat p_{ki}^*)^{a_{ki}}(1-\hat p_{ki}^*)^{1-a_{ki}}}{\prod_{k=0}^K (\hat p_{ki})^{a_{ki}}(1-\hat p_{ki})^{1-a_{ki}}} \tag{27}
swi=∏k=0K(p^ki)aki(1−p^ki)1−aki∏k=0K(p^ki∗)aki(1−p^ki∗)1−aki(27)
效应修饰作用(effect modifier)反映的是处理与结果关系的强弱,通常情况下仅与结果有关,与处理无关,不会引起偏倚(bias),将其加入回归模型能提升各类(subject)的估计准确性。而混杂因子(confounder)反应的是处理与结果关系的有无,与处理和结果均存在关联,不考虑混杂会产生偏倚。直觉性的图解见图(c
{}
)[3],其中
A
A
A表示效应修饰作用,
C
1
C_1
C1表示混杂因子。
假设
V
V
V是预处理协变量
L
0
L_0
L0的子集,由于
V
V
V已被IPTW调整过,因此仅当
V
V
V确定对因果效应有很大影响时,才会考虑将其加入回归方程。将
V
V
V加入到式(24),一个数据模型的例子如式(28)所示,相应的
s
w
i
sw_i
swi概率调整如式(29)所示。
l
o
g
i
t
p
r
[
Y
=
1
∣
A
ˉ
=
a
ˉ
,
V
=
v
]
=
β
0
+
β
1
c
u
m
(
a
ˉ
)
+
β
2
v
+
β
3
c
u
m
(
a
ˉ
)
v
(28)
logit\ pr[Y=1|\bar A=\bar a,V=v]=\beta_0+\beta_1cum(\bar a)+\beta_2v+\beta_3cum(\bar a)v \tag{28}
logit pr[Y=1∣Aˉ=aˉ,V=v]=β0+β1cum(aˉ)+β2v+β3cum(aˉ)v(28)
l
o
g
i
t
p
r
[
A
k
=
1
∣
A
ˉ
k
−
1
=
a
ˉ
k
−
1
,
V
=
v
]
=
α
0
∗
+
α
1
∗
k
+
α
2
∗
a
k
−
1
+
α
3
∗
a
k
−
2
+
α
4
∗
v
(29)
logit\ pr[A_k=1|\bar A_{k-1}=\bar a_{k-1},V=v]=\alpha_0^*+\alpha_1^*k+\alpha_2^*a_{k-1}+\alpha_3^*a_{k-2}+\alpha_4^*v \tag{29}
logit pr[Ak=1∣Aˉk−1=aˉk−1,V=v]=α0∗+α1∗k+α2∗ak−1+α3∗ak−2+α4∗v(29)
失访表示失去随访(lose to follow-up),通常是由于观察对象死亡、结束或数据无法收集等导致的数据缺失情况。使用MSM模型能在失访的情况下进行因果效应分析。记 k k k时刻失访为 C k = 1 C_k=1 Ck=1,未失访为 C k = 0 C_k=0 Ck=0,并假设失访后目标不会再次接受随访。将失访加入模型中的思想也比较简单,是在 A k − 1 A_{k-1} Ak−1和 L k L_k Lk间插入 C k C_k Ck,即 A k − 1 ⟶ C k ⟶ L k A_{k-1}\longrightarrow C_k\longrightarrow L_k Ak−1⟶Ck⟶Lk。其物理意义例如,当病人服用一定剂量的药物后,可能失访,导致结果不可知。
接下来是如何把
C
k
C_k
Ck加入MSM回归模型的问题。结果
Y
Y
Y能观测必然的前提是
C
ˉ
=
(
C
0
,
…
,
C
K
+
1
)
=
0
\bar C=(C_0,\dots,C_{K+1})=0
Cˉ=(C0,…,CK+1)=0,也就是说在整个随访周期中均未发生失访现象。因此,各个类别的权重
s
w
i
sw_i
swi就需要加入对随访丢失的考虑,随访丢失越严重,类别所占比例越小,权重调整就越大。失访情况下的权重可写作
s
w
i
×
s
w
i
†
sw_i\times sw_i^\dagger
swi×swi†。
s
w
i
sw_i
swi仍然使用式(25),
s
w
i
†
sw_i^\dagger
swi†是逆审查权重概率(inverse probability of censoring weighting),写作式(30)。
s
w
i
†
=
∏
k
=
0
K
+
1
p
r
[
C
k
=
0
∣
C
ˉ
k
−
1
=
0
,
A
ˉ
k
−
1
=
a
ˉ
(
k
−
1
)
i
]
∏
k
=
0
K
+
1
p
r
[
C
k
=
0
∣
C
ˉ
k
−
1
=
0
,
A
ˉ
k
−
1
=
a
ˉ
(
k
−
1
)
i
,
L
ˉ
k
=
l
ˉ
k
i
]
(30)
sw_i^\dagger=\frac{\prod_{k=0}^{K+1} pr[C_k=0|\bar C_{k-1}=0,\bar A_{k-1}=\bar a_{(k-1)i}]}{\prod_{k=0}^{K+1} pr[C_k=0|\bar C_{k-1}=0,\bar A_{k-1}=\bar a_{(k-1)i},\bar L_k=\bar l_{ki}]} \tag{30}
swi†=∏k=0K+1pr[Ck=0∣Cˉk−1=0,Aˉk−1=aˉ(k−1)i,Lˉk=lˉki]∏k=0K+1pr[Ck=0∣Cˉk−1=0,Aˉk−1=aˉ(k−1)i](30)
当混杂因子在某个状态下,所有观察对象的处理都是相同的,这时无法使用MSM模型进行计算。(因为有的概率值为0,连乘也为0。这表明MSM服从正值性Positivity假设)
[1] James M. Robins, Miguel A. Hernan, Babette Brumback. Marginal Structural Models and Causal Inference in Epidemiology[J]. Epidemiology, 2000, 11(5): 550-60.
[2] Thomas Fuchs. Slide 1 of MSM[DB/OL]. 2006. (Accessed in October 29, 2020)
[3] Tyler J. VanderWeele. Confounding and Effect Modification: Distribution and Measure[J]. Epidemiologic Methods, 2012, 1(1): 55-82.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。