论文阅读112：CaMIL: Causal multiple instance learning for whole slide image classification (2024AAAI)_camil多示例

作者：菜鸟追梦旅行 | 2024-06-01 07:28:36

踩

camil多示例

1要点

题目：用于WSI分类的因果多示例学习

方法：提出用于WSI分类的因果多示例学习 (MIL) 框架CaMIL，其利用因果推断处理MIL中的虚假关联问题：

将实例编码为实例级特征，并聚合为包级特征 (基操)；
引入交叉注意力，将聚类级特征与包级特征融合，增强了全局信息集成；
实验数据集：Camelyon16和TCGA-NSCLC；

背景：

WSI是自动病理分析中的关键组成，其挑战在于WSI的高分辨率和缺乏实例级标签；
已有的方法通过配备出色的特征提取器和聚合器来训练模型，但容易受虚假关联的影响；

2 方法

2.1 一些定义

令 $S_i=\{ (p_{i,1},y_{i,1}),\dots,(p_{i,n},y_{i,n}) \}$ 表示包，其中 $y_{i,j}\in\{ 0,1 \}$ 是实例 $p_{i,j}$ 的标签。我们只有访问包标签的权力，其被定义为：
$\tag{1} Y_i=\left\{$

\begin{aligned} 0, & i f f \sum_{j} y_{i, j} = 0, \\ 1, & o t h e r w i s e . \end{aligned}

$\begin{aligned} 0,&\qquad iff\sum_jy_{i,j}=0,\\ 1,&\qquad otherwise. \end{aligned}$ \right.

Y_{i} = ⎩ ⎨ ⎧ 0, 1, i ff j \sum y_{i, j} = 0, o t h er w i se . (1)

传统MIL的过程如图2上，其可以被表示为：
$\tag{2} \hat{Y}_i=h(g(x_{i,1},\dots,x_{i,j},\dots,x_{i,n})),\quad x_{i,j}=f(p_{i,j}),$ 其中 $f(\cdot)$ 表示实例级特征提取器、 $g(\cdot)$ 表示聚合器，以及 $h(\cdot)$ 表示分类器。

图2：CaMIL总体架构。图的上半部分表示传统MIL，下半部分表示CaMIL的关键部分：实例级特征被聚类为簇，并池化为相应的特征。接下来，交叉注意力被用于融合这些特征和包级别特征 $Z$ ，以获取更好的包表征和因果建模。注意实例级特征将会不断更新

2.2 CaMIL

CaMIL因果建模的过程如图3：

计算 $X\to Z$ 的因果效应：
$\tag{3} P(z|do(x))=P(z|x),$ 其中 $do(\cdot)$ 表示因果推断；
计算 $Z\to Y$ 的因果效应：
$\tag{4} P(y|do(z))=\sum_x P(y|z,x)P(x)$
计算 $X\to Y$ 的因果效应：
$\tag{5} P(y|do(x))=\sum_zP(z|x)\sum_{x'}P(y|z,x')P(x').$ 注意这里只是示意因果建模过程，算法的详情可以参见图2和下一章节； $x^{'}$ 是实例特征的聚类表示

图3：用于解释MIL的因果图：(a) $X\to Z$ 的因果效应，黑色点划表示闭锁路径；(b) $Z\to Y$ 的因果效应，红色链接表示后门路径；© $X\to Y$ 的因果效应

2.3 框架

包中实例编码后的实例级特征为 $\{x_{i,1},\dots,x_{i,j},\dots,x_{i,n}\}$ 。通过结合聚合器 $g(\cdot)$ ，可以将实例级特征转换为包级特征 $z = g (x)$ ，其对应公式5中的 $P (z ∣ x)$ 。此时，公式5可以被重写为：
$\tag{6}$

\begin{aligned} P (y | d o (x)) & = \sum_{x^{'}} P (y | z = g (x), x^{'}) P (x^{'}) \\ = E_{x^{'}} [P (y | z, x^{'})] . \end{aligned}

$\begin{aligned} P(y|do(x))&=\sum_{x'}P(y|z=g(x),x')P(x')\\ &=\mathbb{E}_{x'}[P(y|z,x')]. \end{aligned}$

P (y ∣ d o (x)) = x^{'} \sum P (y ∣ z = g (x), x^{'}) P (x^{'}) = E_{x^{'}} [P (y ∣ z, x^{'})] . (6)

目前的问题在于，如何解决

\sum_{x'}P(y|z,x')P(x')

。

接下来，引入实例缓存来存储所有实例级特征，但是这样将耗费巨大的计算资源。一种合理的做法是使用 $K$ -means将它们划分为 $k$ 簇。由于每个簇代表着共享相同信息的实例的子集，因此其捕捉了用于包分类的本质信息。通过平均每一个簇，获得所有簇的池化表示 $x'=[x'_1,x'_2,\dots,x_K']$ 。

接下来，交叉注意力被用于融合 $Z$ 和 $x^{'}$ ：
$\tag{7} \phi(z,x')=\left[ P(x') \cdot Softmax\left( \frac{(W_qz)^\top(W_kx')}{\sqrt{d}} \right) \right](W_v x'),$ 其中 $W$ 是线性映射， $d$ 是特征维度。这里设置 $P (x^{'}) = 1/ K$ ，表示等同看待每个簇。随后，拼接包级特征和融合特征，再使用NWGM来近似期望并完成因果建模：
$\tag{8} P(y|do(x))\approx P(y|z\oplus \phi(z,x'))。$ 在本文中， $f(\cdot)$ 可以选用ResNet等预处理器、 $g(\cdot)$ 是注意力网络等，以及 $h(\cdot)$ 是多层感知机。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/656628