赞
踩
全幻灯片图像 (Whole slide image, WSI) 是一种有着超高分辨率和极少局部标注的图像。当仅有幻灯片级别标签给定时,其可以看作是一个多示例学习 (Multi-instance learning, MIL) 问题。
提出了一种基于MIL的WSI分类和肿瘤检测方法,而不依赖局部标注。该方法分为三个主要步骤:
1)引入一种新颖的MIL聚合器,它通过可训练的距离度量对双流架构中实例的关系进行建模;
2)由于WSI会产生阻碍MIL模型训练的大型或不平衡包,提出了自监督对比学习来提取MIL下的良好表示并缓解大型包的高内存的问题;
3)对多尺度WSI特征采用金字塔融合机制,进一步提高分类和定位的准确性。
我们的方法在两个代表性WSI数据集上评估:
1)模型的分类准确率优于全监督方法,数据集之间的准确率差距不到2%;
2)结果优于所有以前基于MIL的方法;
3)标准MIL数据集的其他基准测试结果进一步证明了我们的MIL聚合器在一般MIL问题上的卓越性能。
https://github.com/binli123/dsmil-wsi
@inproceedings{Li:2021:1431814328,
author = {Bin Li and Yin Li and Kevin W Eliceiri},
title = {Dual-stream multiple instance learning network for whole slide image classification with self-supervised contrastive learning},
booktitle = {{IEEE} Conference on Computer Vision and Pattern Recognition},
pages = {14318--14328},
year = {2021}
url = {https://arxiv.org/abs/2011.08939}
}
本节主要介绍MIL的背景与所提出的算法DSMIL。
在MIL中,训练样本构成的组被看作是包含多个实例的包。每个包有一个包级别的标签,且当包中包含至少一个正实例时其标记为正,反之为负。实例级别的标签则是未知的。在二分类的情况下,令
B
=
{
(
x
1
,
y
1
)
,
…
,
(
x
n
,
y
n
)
}
B=\{(x_1,y_1),\dots,(x_n,y_n)\}
B={(x1,y1),…,(xn,yn)}表示一个包,其中
x
i
∈
X
x_i\in\mathcal{X}
xi∈X是实例,其标签为
y
i
∈
{
0
,
1
}
y_i\in\{0,1\}
yi∈{0,1}。包的标签被计算为:
c
(
B
)
=
{
0
,
i
f
f
∑
y
i
=
0
1
,
o
t
h
e
r
w
i
s
e
(1)
\tag{1} c(B)= \left\{
c
(
B
)
=
g
(
f
(
x
0
)
,
…
,
f
(
x
n
)
)
(2)
\tag{2} c(B)=g(f(x_0),\dots,f(x_n))
c(B)=g(f(x0),…,f(xn))(2) 根据
f
f
f和
g
g
g选择的不同,MIL可以被分为两类:
1)基于实例的方法:
f
f
f是一个用于预计实例得分的分类器,
g
g
g是一个汇聚实例得分为包得分的池化函数;
2)基于嵌入的方法:
f
f
f是一个映射实例为嵌入的实例级别特征提取器,
g
g
g是一个基于实例嵌入获取包嵌入并得到包标签的汇聚函数。
基于嵌入的方法直接产生包分数,并且与基于实例的方法相比,通常有更好的准确性。但是,其通常更难确定触发分类器的实例。
在弱监督WSI分类中,每一个WSI被看作是一个包,每个从中提取的区块被看作是一个包中的实例。接下来我们将描述我们的模型,该模型联合学习实例级分类器和嵌入聚合器,并解释这种混合架构如何提供基于实例和基于嵌入的方法的优势。
我们的关键创新之处为所设计的汇聚函数
g
g
g,以及特征提取器
f
f
f的学习。具体地,DSMIL包含一个蒙版non-local块和一个用于特征汇聚的最大池化块,其输入为自监督对比学习获取的实例嵌入。此外,DSMIL包含一个使用金字塔策略的多尺度嵌入,从而确保WSI中补丁注意力的局部约束。图2为DSMIL的总体框架。
与先前学习实例分类器或者包分类器的方法不同,DSMIL联合学习实例分类器和包分类器以及双流架构中的包嵌入。令
B
=
{
x
1
,
…
,
x
n
}
B=\{x_1,\dots,x_n\}
B={x1,…,xn}表示包含WSI中区块的包。给定特征提取器
f
f
f,每个实例
x
i
x_i
xi可以投影为嵌入
h
i
=
f
(
x
i
)
∈
R
L
×
1
\mathbf{h}_i=f(x_i)\in\mathbb{R}^{L\times1}
hi=f(xi)∈RL×1。第一个流使用每个每个实例嵌入上的实例级别分类器,随后使用最大池化:
c
m
(
B
)
=
g
m
(
f
(
x
i
)
,
…
,
f
(
x
n
)
)
=
max
{
W
0
h
0
,
…
,
W
0
h
N
−
1
}
(3)
\tag{3} c_m(B)=g_m(f(x_i),\dots,f(x_n))=\max\{\mathbf{W}_0\mathbf{h}_0,\dots,\mathbf{W}_0\mathbf{h}_{N-1}\}
cm(B)=gm(f(xi),…,f(xn))=max{W0h0,…,W0hN−1}(3)其中
W
0
\mathbf{W}_0
W0是权重向量。最大池化流用于确定具有最高得分的关键实例。该操作是序列不变的,满足公式2.
第二个流汇聚实例嵌入为包嵌入并通过包分类器获取得分。获取关键实例的嵌入
h
m
\mathbf{h}_m
hm后,转换每个实例的嵌入
h
i
\mathbf{h}_i
hi,包括
h
m
\mathbf{h}_m
hm为两个向量,查询
q
i
∈
R
L
×
1
\mathbf{q}_i\in\mathbb{R}^{L\times1}
qi∈RL×1和信息
v
i
∈
R
L
×
1
\mathbf{v}_i\in\mathbb{R}^{L\times1}
vi∈RL×1:
q
i
=
W
q
h
i
,
v
i
=
W
v
h
i
,
i
=
0
,
.
.
.
,
N
−
1
(4)
\tag{4} \mathbf{q}_i=\mathbf{W}_q\mathbf{h}_i,\qquad\mathbf{v}_i=\mathbf{W}_v\mathbf{h}_i,\qquad i=0,...,N-1
qi=Wqhi,vi=Wvhi,i=0,...,N−1(4)然后我们定义任意实例与关键实例之间的距离:
U
(
h
i
,
h
m
)
=
exp
(
⟨
q
i
,
q
m
⟩
)
∑
k
=
0
N
−
1
exp
(
⟨
q
k
,
q
m
⟩
)
(5)
\tag{5} U(\mathbf{h}_i,\mathbf{h}_m)=\frac{\exp(\langle\mathbf{q}_i,\mathbf{q}_m\rangle)}{\sum_{k=0}^{N-1}\exp(\langle\mathbf{q}_k,\mathbf{q}_m\rangle)}
U(hi,hm)=∑k=0N−1exp(⟨qk,qm⟩)exp(⟨qi,qm⟩)(5)其中“
⟨
⋅
,
⋅
⟩
\langle\cdot,\cdot\rangle
⟨⋅,⋅⟩”表示向量内积。包嵌入
b
\mathbf{b}
b是所有信息向量
v
i
\mathbf{v}_i
vi的加权按元素求和的结果:
b
=
∑
i
N
−
1
U
(
h
i
,
h
m
)
v
i
(6)
\tag{6} \mathbf{b}=\sum_i^{N-1}U(\mathbf{h}_i,\mathbf{h}_m)\mathbf{v}_i
b=i∑N−1U(hi,hm)vi(6)包的得分
c
b
c_b
cb被计算为:
c
b
(
B
)
=
g
b
(
f
(
x
i
)
,
…
,
f
(
x
n
)
)
=
W
b
∑
i
N
−
1
U
(
h
i
,
h
m
)
v
i
=
W
b
b
(7)
\tag{7} c_b(B)=g_b(f(x_i),\dots,f(x_n))=\mathbf{W}_b\sum_i^{N-1}U(\mathbf{h}_i,\mathbf{h}_m)\mathbf{v}_i=\mathbf{W_b}\mathbf{b}
cb(B)=gb(f(xi),…,f(xn))=Wbi∑N−1U(hi,hm)vi=Wbb(7)该操作类似于自注意力,而区别在于查询匹配尽在关键节点与其他节点之间进行。此外,我们将查询与其他查询匹配,而不是将如自注意力那边将每个查询与其他关键向量匹配,并且不学习任何关键向量。
点乘度量了两个实例之间的相似性,导致相似的实例产生更大的值。因此,与关键实例更相似的实例将获取更高的注意力权重。信息向量
v
i
\mathbf{v}_i
vi的附加层允许在每个实例中提取贡献信息。公式5确保了注意力权重之和为1。
不小心误删了,没保存,后面的机翻了吧。。。
由于关键实例不依赖于实例的顺序,并且度量
U
U
U是对称的,因此包嵌入
b
\mathbf{b}
b的这个和项不依赖于实例的顺序,因此,第二个流是置换不变的并且满足公式 2.。最终的包得分是两个流的分数的平均值:
没心情了,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。