赞
踩
多示例学习中预测包标签时,实例标签预测的准确性不仅仅依靠实例本身,还同时依赖于所属包中的上下文关系。从因果推理的角度来看,这种包上下文先验知识将作为一个混杂因素,从而引发模型的鲁棒性和可解释性问题。
本文提出介入式多示例学习框架 (interventional multi-instance learning, IMIL) 来实验实例级混淆预测。与传统的基于似然的方法不同,IMIL设计了一种基于因果介入的期望最大化 (expectation-maximization, EM) 算法,以在训练阶段提供稳健的实例选择,并抑制由袋子上下文先验引起的偏差。
@inproceedings{Lin:2022:interventional,
author = {Tian Cheng Lin and Hong Teng Xu and Can Qian Yang and Yu Xi},
title = {Interventional multi-instance learning with deconfounded instance-level prediction},
booktitle = {AAAI Conference on Artificial Intelligence},
year = {2022}
}
由于人工资源、时间,以及成本的限制,细粒度数据,如高分辨率图像的逐像素标注的通常不适用于实际应用。为了降低高质量标记的需求,多示例学习 (multi-instance learning, MIL) 将多个实例看作一个包,并从一组标记包中学习一个实例级别的分类器。这样的学习形式以及应用于多个领域,如图像分类、对象追踪,以及语义分割等。整片病理图像 (whole slide pathological image, WSI) 是其中的一个代表应用。每个WSI是一个包含病理标签的包,WSI的每一个区块是包中的无标记实例。MIL框架的目的便是学习一个可以识别病例区块的实例级分类器。
目前,已有很多MIL算法被提出且取得了不错的成绩。然而它们通常需要面对包上下文先验 (bag contextual prior) 问题。特别地,包上下文先验是一种与包对应但与其实例无关的实例共享信息,在应用于深度神经网络等模型时可能导致病态的实例级预测。图1 (a) 展示了WSI分类任务中的上下文先验。在一个包中,不同标签的区块在颜色与质地上通常有相似的特征,然而对于不同的包中的相同标签实例,其特征差异却反而大。这样的包内相似包间异同性,可能损伤实例级别的预测并错误的引导MIL模型。图1 (b) 展示了同一包中实例的预测得分。从因果推理的角度来看,包上下文先验是一个混淆因素,它导致实例和标签之间的虚假相关性,使得预测既依赖于关键实例,也依赖于它的无用上下文。因此,一个健壮且可解释的MIL模型应当建立能够应对上下文先验的高效模型,从而揭露实例与标签之间的实际因果关系,并最终获取实例预测分数。
为了处理实例级别的混淆预测,本文提出了一种新颖的介入式多示例学习模型,称为IMIL,其中结构因果模型 (structural causal model, SCM) 用于分析包上下文先验、实例和标签之间的因果关系。IMIL 是一种期望最大化 (expectation-maximization, EM) 算法框架,包含混淆偏差消除和鲁棒实例选择两种策略:
1)训练阶段,首先初始化实例标签为为所属包的标签,并通过M-step和E-step交替优化直至收敛;
2)E-step近似模型的总效应,首先重新加权实例的分数以获得去混淆预测,然后通过直接因果效应和间接中介效应选择实例;
3)与现有实例选择标准不同,IMIL在没有外部信息的情况下近似因果效应。
实验基于因果关系将IMIL与最先进的MIL方法进行比较,并详细分析它们的联系与差异。两个流行的WSI数据集,即DigestPath和Camelyon16用于验证IMIL的有效性。实验结果展示IMIL在WSI分类任务上有着显著性能。特别地,所提出的物理介入可以兼容于所有的对比算法,从而带来一致性能提升;展示了IMIL在多示例多标签数据集Pascal VOC上的潜力。
令
{
X
i
,
Y
i
}
i
=
1
I
\{X_i,Y_i\}_{i=1}^I
{Xi,Yi}i=1I表示粗略标记包的集合。包
X
i
=
{
x
i
j
}
j
=
1
N
i
X_i=\{x_{ij}\}_{j = 1}^{N_i}
Xi={xij}j=1Ni包含
N
i
N_i
Ni个未标记实例,每个实例级别的标签
y
i
j
∈
{
0
,
1
}
y_{ij}\in\{0,1\}
yij∈{0,1}是不可知的。对于每个包
X
i
X_i
Xi,包级别标签
Y
i
Y_i
Yi基于标准MIL假设计算,即当
∃
y
i
j
=
1
\exist y_{ij}=1
∃yij=1时
Y
i
=
1
Y_i = 1
Yi=1,否则
Y
i
=
0
Y_i=0
Yi=0。
MIL的目标是基于粗略标记包训练一个预测模型。如图3 (a) 所示,我们将MIL抽象为一个因果图 (causal graph),又名结构因果模型或者SCM,表示为
G
=
{
N
,
E
}
\mathcal{G} = \{\mathcal{N},\mathcal{E}\}
G={N,E},其中节点
N
\mathcal{N}
N是变量的集合,边界
E
\mathcal{E}
E表示系统种的的因果关系:
B
→
X
B\to X
B→X:
X
X
X表示实例,
B
B
B表示包上下文先验,这对应于包中包含多个实例;
B
→
D
←
X
B\to D\leftarrow X
B→D←X:
D
D
D表示同一个包中所有实例的共享上下文信息,又称实例共享表示。这些上下文表示可以自然地由MIL模型编码为多种基础 (manifold bases)、语义主题 (semantic topics),以及典型模式 (typical patterns) 等;
X
→
Y
←
D
X \to Y\leftarrow D
X→Y←D:
Y
Y
Y表示由直接影响
X
→
Y
X\to Y
X→Y和间接影响
D
→
Y
D\to Y
D→Y决定的类别得分。
X
→
Y
X\to Y
X→Y是显式的,这意味着MIL模型将根据给定的
X
X
X输出
Y
Y
Y;
D
→
Y
D\to Y
D→Y则暗含着包上下文先验对实例标签的影响。注意
D
→
Y
D\to Y
D→Y在MIL中总是存在的。如果不存在,即
D
↛
Y
D\nrightarrow Y
D↛Y,则
B
→
X
→
Y
B \to X\to Y
B→X→Y的路径将被死锁,然后实例的标签将不再依赖于包,这是与MIL相违背的。
再次,以WSI分类为例:1)
B
→
X
B\to X
B→X:一个WSI包含多个区块,区块则分属于不同的组织类型;2)
B
→
D
←
X
B\to D \leftarrow X
B→D←X:包中的区块共享一些隐含信息
D
D
D,例如颜色和纹理这样的全局低级别特征;3)
X
→
Y
←
D
X\to Y\leftarrow D
X→Y←D:MIL模型需要依据区块特有及区块共有信息来分类区块。除了 WSI 分类的其他 MIL 问题,如时间动作定位和弱监督语义分割也可以由图 3 (a) 中的 SCM 解释。
在本文的SCM图中,
B
B
B通过后门路径
X
←
B
→
D
→
Y
X\leftarrow B\to D\to Y
X←B→D→Y混淆了
X
X
X和
Y
Y
Y,即某些实例与预测无关,也将包中所有的实例预测为相同的。另一方面,
X
→
D
→
Y
X\to D\to Y
X→D→Y是一条中介路径,这是MIL中的一种关键机制。实际上,实例共享信息
D
D
D作为一个中介,编码了实例之间的依赖性。以室内场景为例,室内包包含了很多TV实例而非野生动物,
D
D
D包含室内语义,其可以通过过滤掉属于室外场景的实例来缩小基于实例预测时的搜索空间。接下来的章节将主要介绍IMIL与现有方法在混淆与中介上的操作的差异。
一个理想的MIL模型应当捕获 X X X与 Y Y Y之间的真是因果关系。然而,由图3 (a) 所知,传统相关性 P ( Y ∣ X ) P(Y|X) P(Y∣X)无法达成这一点,因为 Y Y Y的可能性不仅与相应的 X X X本身有关,还关联了 B B B所混淆的虚假相关。因此,为了探索 X X X与 Y Y Y之间的真实因果,我们使用因果介入 P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Y∣do(X))来替换 P ( Y ∣ X ) P(Y|X) P(Y∣X)。在这里, d o ( ⋅ ) do(\cdot) do(⋅)操作被定义为强制为变量分配一个特定的值,对应于应用随机对照试验。接下来,我们通过期望最大化 (EM) 算法实现IMIL,具体包含去混淆训练和判别实例选择 (以下内容中,变量被表示为大写字母,值被表示为小写)。
本阶段通过物理介入来优化模型,其意图削减潜在的混淆影响,如图3 (b)。由于枚举在每个包中的所有实例在实践中不可行,本文采用强大的数据增强来模拟随机对照试验。在实际应用中,包上下文先验可以被实例化为结构模式、几何排列,以及颜色分布等。通过空间和外观变换的数据增强形式可以增强同一包中实例的多样性。因此,增强实例模拟来自具有不同上下文先验的包中的实例,从而准确实现 d o ( ⋅ ) do(\cdot) do(⋅)操作。在IMIL中, MoCo v2中使用的一组数据增强作为默认设置,其中包括调整大小、裁剪、水平翻转、颜色抖动,以及随机灰度转换。与此相应,弱增强则只包括调整大小、裁剪,以及翻转。后续的实验展示,这种去混淆训练为所有比较方法带来了显着改进,这是一种实用、通用且易于实现的解决方案。 应该注意的是,利用任务专门化的领域知识可能有助于设计更有效的数据增强方法,这是我们的未来工作。
E-step用于进一步选择判别实例,并抑制下一次迭代中非判别实例施加的混淆偏差。定义以下总体效应 (total effect) 来作为实例的选择标准:
T
E
(
Y
)
=
E
[
Y
∣
d
o
(
X
=
x
)
]
−
E
[
Y
∣
d
o
(
X
=
x
0
)
]
=
P
(
1
∣
d
o
(
X
=
x
)
)
−
P
(
1
∣
d
o
(
X
=
x
0
)
)
⏟
二分类
,
(1)
\tag{1}
在第
t
t
t轮E-step中,给定包
{
x
i
j
}
j
=
1
N
i
\{x_{ij}\}_{j=1}^{N_i}
{xij}j=1Ni,基于当前模型可以计算每个实例
x
i
j
x_{ij}
xij的得分。对于分类任务,得分通常基于sigmoid或者softmax函数进行设置。进一步在得分的基础上,通过能量模型来近似
E
[
Y
∣
d
o
(
X
=
x
)
]
\mathbb{E}[Y|do(X=x)]
E[Y∣do(X=x)],即
E
[
Y
∣
d
o
(
X
=
x
)
]
∝
S
(
x
i
j
)
1
N
i
∑
j
S
(
x
i
j
)
=
E
(
x
i
j
)
.
(2)
\tag{2} \mathbb{E}[Y \mid d o(X=x)] \propto \frac{S\left(x_{i j}\right)}{\frac{1}{N_{i}} \sum_{j} S\left(x_{i j}\right)}=E\left(x_{i j}\right).
E[Y∣do(X=x)]∝Ni1∑jS(xij)S(xij)=E(xij).(2) 该模型不同于传统方法中,直接使用softmax汇聚得分的设置:
1)
S
(
x
i
j
)
S(x_{ij})
S(xij)表示通过Temporal集成方法得到的指数移动平均分数,其估计了
d
o
(
X
=
x
i
j
)
do(X=x_{ij})
do(X=xij)的非归一化效应:
S
(
x
i
j
)
←
m
S
(
x
i
j
)
+
(
1
−
m
)
s
(
t
)
(
x
i
j
)
.
(3)
\tag{3} S(x_{ij})\leftarrow mS(x_{ij})+(1-m)s^{(t)}(x_{ij}).
S(xij)←mS(xij)+(1−m)s(t)(xij).(3)这种机制可以解释为多次应用瞬时间隔采样,其中
S
(
x
i
j
)
S(x_{ij})
S(xij)是分数的集合,
m
m
m是动量系数。运用
S
(
x
i
j
)
S(x_{ij})
S(xij)而非
s
(
t
)
(
x
i
j
)
s^{(t)}(x_{ij})
s(t)(xij)可以提升实例选择的健壮性;
2)
E
(
x
i
j
)
E(x_{ij})
E(xij)的分母是包中所有实例的平均得分,其作为,用于平衡实例的观察偏差,如图2的散点图所示。注意,IMIL实现采用的是逆概率加权的形式,因为混杂因素 B未被观测到。
对于参考效应
E
[
Y
∣
d
o
(
X
=
x
0
)
]
\mathbb{E}[Y|do(X=x_0)]
E[Y∣do(X=x0)],其首先被初始化为
0
0
0,并随着算法迭代而逐渐增加。特别地,我们为每个实例计算
E
(
x
i
j
)
E(x_{ij})
E(xij),并选取其中
⌊
R
(
t
)
K
⌋
\lfloor R^{(t)}K\rfloor
⌊R(t)K⌋个具有最大
E
(
x
i
j
)
E(x_{ij})
E(xij)值的实例作为辨别实例,其中
R
(
t
)
=
(
1
−
τ
t
)
R^{(t)}=(1-\tau t)
R(t)=(1−τt)、
τ
\tau
τ是衰减率,以及
K
=
∑
i
N
i
K=\sum_i N_i
K=∑iNi是实例的总数。因此,E-step中第
t
t
t次算法迭代中,参考效应计算为:
E
[
Y
∣
d
o
(
X
=
x
0
(
t
)
)
]
=
max
{
ϵ
:
∑
x
i
j
I
(
E
(
x
i
j
)
≥
ϵ
)
=
⌊
R
(
t
)
K
⌋
}
(4)
\tag{4} \mathbb{E}[Y|do(X=x_0^{(t)})]=\max\left\{\epsilon:\sum_{x_{ij}}\mathbb{I}({E}(x_{ij})\geq \epsilon)=\lfloor R^{(t)}K\rfloor\right\}
E[Y∣do(X=x0(t))]=max⎩⎨⎧ϵ:xij∑I(E(xij)≥ϵ)=⌊R(t)K⌋⎭⎬⎫(4)其中
I
\mathbb{I}
I是指示函数。当
τ
K
\tau K
τK个最小被选择实例的平均再评估分数超过给定阈值
T
T
T时,
R
(
t
)
R^{(t)}
R(t)将停止更新:
min
X
⊂
X
t
{
1
τ
K
∑
x
∈
X
E
(
x
)
:
∣
X
∣
=
τ
K
}
≥
T
,
(5)
\tag{5} \min_{\mathcal{X}\subset\mathcal{X}_t}\left\{\frac{1}{\tau K} \sum_{x\in\mathcal{X}} E(x):| \mathcal{X} | = \tau K \right\}\geq T,
X⊂Xtmin{τK1x∈X∑E(x):∣X∣=τK}≥T,(5)其中
X
t
\mathcal{X}_t
Xt是被选择实例的集合。这表明得分越高,新选择实例的辨别性便越高。这样的一个设置也可以有效地避免MIL方法中的过拟合。最终有:
T
E
(
Y
)
=
E
(
x
)
−
E
[
Y
∣
d
o
(
X
=
x
0
(
t
)
)
]
.
TE(Y) = E(x)-\mathbb{E}[Y|do(X=x^{(t)}_0)].
TE(Y)=E(x)−E[Y∣do(X=x0(t))].
尽管因果介入在理论上与方法、数据集,以及主干无关,但其实现在实践中通常针对于特定任务。对于MIL中的EM框架,我们分别在M-step和E-step使用物理介入和后门调整来实验因果介入。物理介入可以增强数据集的多样性,并有效地防止M-step中的过拟合。然而,这通过引入新的随机性而非选择实例来去除混淆偏差。与此相应,后门调整通过选择辨别性实例来近似TE。如图4所示,近似TE可以有效去除潜在混淆偏差和保证中介效应,这样的操作也更适合E-step。
图4:总体效应和自然直接效应。
d
0
d_0
d0表示
x
0
x_0
x0参考实例相应的实例共享信息
将多示例多标签数据中的每一类看作是二分类MIL时,IMIL也有用于简单的处理该问题。在这种情况下,辨别性的概念因类而异:一个类中的非判别实例可以作为另一个类的负实例,从而提供可靠监督。 因此,IMIL以相对保守的方式选择实例,即如果没有为某一个类选择一个实例,则降低它在这个类中损失的重要性,同时保持它对其他类的重要性。
IMIL为已有的MIL方法的分析提供了一个新的框架。特别地,表1从因果介入的角度对比了一些方法。本质上,现有的MIL方法可以分为3类:
1)SimpleML:简单地使用所有的实例而不考虑因果介入;
2)计算自然直接效应 (NDE) 来选择实例:
N
D
E
(
Y
)
=
E
[
Y
d
o
∣
d
o
(
X
=
x
)
]
−
E
d
o
[
Y
d
o
∣
d
o
(
X
=
x
0
)
]
NDE(Y)=\mathbb{E}[Y_{do}|do(X=x)]-\mathbb{E}_{do}[Y_{do}|do(X=x_0)]
NDE(Y)=E[Ydo∣do(X=x)]−Edo[Ydo∣do(X=x0)],其中
Y
d
o
Y_{do}
Ydo是条件
d
o
(
X
=
x
0
)
do(X=x_0)
do(X=x0)下的反事实输出。由于NDE完全消除了
D
D
D的总体效应,这可能会损失一些学习过程中的重要信息。因此这一类方法往往需要额外信息作为补充,如Top-
k
k
kNN、RCEMIL,以及PatchCNN。它们通过比较同一个包中实例的得分来选择实例。这实际上是对
D
D
D的干预,它迫使特定于中介的效应相同;
3)近似总体效应:SemiMIL 以部分去混淆的方式选择实例,其中具有额外注释的实例通过分配更大的权重来调整,而其余的仍然是混淆的。 IMIL基于
T
E
TE
TE进行实例选择,并使用后门调整将混杂效应与中介效应分开。该方法可以作为现有 MIL 方法的插件。此外,IMIL无需外部信息,因为
T
E
TE
TE保留了
D
D
D的中介效应。
方法 | SimpleMIL | PatchCNN | RCEMIL | Top- k k kMIL | SemiMIL | IMIL |
---|---|---|---|---|---|---|
d o ( D ) do(D) do(D) | - | √ | √ | √ | - | - |
d o ( X ) do(X) do(X) | - | - | - | - | √ | √ |
直接效应 | - | NDE | NDE | NDE | TE | TE |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。