论文阅读 (97)：Differentiable Zooming for Multiple Instance Learning on Whole-slide Images_扰动最大化方法(perturbed maximum method)

作者：weixin_40725706 | 2024-06-01 07:41:07

踩

扰动最大化方法(perturbed maximum method)

文章目录

1 要点
2 可微缩放MIL

1 要点

1.1 概述

题目：用于全幻灯片图像的多示例学习可微缩放 (Differentiable zooming for multiple instance learning on whole-slide images)

背景：多示例学习 (MIL) 在数字病理学中对十亿像素级的全幻灯片图像 (WSI) 分类变得愈发流行

问题：

已有的方法在单一放大的WSI上处理所有的组织区块，这将WSI级的上下文限制在单一尺度，且需要极大的计算资源；
扩展到多尺度的方法，需要更大的计算资源要求；

方法：受病理学诊断过程的启发，提出了ZoomMIL，其以端到端的方式学习且执行多级缩放，即汇聚多级尺度上的组织-上下文信息为多个WSI表示

1.2 代码

https://github.com/histocartography/zoommil

1.3 引用

@inproceedings{Thandiackal:2022:699715,
authorq		=	{Kevin Thandiackal and Bo Qi Chen and Pushpak Pati and Guillaume Jaume and Drew FK Williamson and Maria Gabrani and Orcun Goksel},
title		=	{Differentiable zooming for multiple instance learning on whole-slide images},
booktitle	=	{{ECCV}},
pages		=	{699--715},
year		=	{2022}
url			=	{https://doi.org/10.1007/978-3-031-19803-8_41}
}
1
2
3
4
5
6
7
8

2 可微缩放MIL

2.1 注意力MIL

详情参见GAMIL中的门控注意力。

2.2 多级缩放

假设WSI在不同缩放下是可评估的，以 $m\in\{ 1,2,\dots, M \}$ 为索引，其中 $M$ 表示最大的缩放尺度。与特征金字塔类似，假设 $m + 1$ 处的放大倍数是 $m$ 处的两倍。为了高效地将MIL扩展到多级缩放，本文将从低到高倍率放大以分级鉴别高信息区块，并汇聚为最终的WSI表示：

计算每个区块的注意力得分 $\mathbf{a}_m\in\mathbb{R}^N$ ；
具有最大注意力得分的 $K$ 个区块用于更高放大倍率下的操作，被选择的区块特征矩阵表示为：
$\tag{3} \tilde{\mathbf{H}}_m=\mathbf{T}_m^\top\mathbf{H}_m,$ 其中 $\mathbf{T}_{m}\in\{ 0,1 \}^{N\times K}$ 是索引矩阵， $\mathbf{H}_m\in\mathbb{R}^{N\times D}$ 是在 $m$ 处的区块特征矩阵。

与已有通过预处理获得多级缩放的方法不同，本文通过分类器 $f(\cdot)$ 的预测结果在第 $m$ 步直接选择区块。该过程不需要任何的损失或者额外的超参数。然后，由于top- $K$ 操作，该方法是不可导的。对此，扰动最大方法 (Perturbed maximum method) 被使用：

注意力系数 $\mathbf{a}_m$ 添加均匀高斯噪声 $\mathbf{Z}\in\mathbb{R}^N$ ；
针对每个受扰动的注意力权重求解一个线性规划，其结果将被平均。因此，可微top- $K$ 被重写为：
$\tag{4} \mathbf{T}={\mathbb{E}}_{\mathbf{Z}\sim\mathcal{N}(0,\mathbb{1})}\left[ \argmax_{\hat{\mathbf{T}}}\langle \hat{\mathbf{T}}, (\mathbf{a}_m + \sigma \mathbf{Z}) \mathbf{1}^\top \rangle \right],$ 其中 $\mathbf{1}^\top=[1\cdots1]\in\mathbb{R}^{1\times K}$ 、 $(\mathbf{a}_m + \sigma \mathbf{Z})\in\mathbb{R}^{T\times K}$ 表示重复 $K$ 次后的扰动注意力权重，以及 $\langle\cdot\rangle$ 表示点积。相应的Jacobian定义为：
$\tag{5} J_{\mathbf{a}_m}\mathbf{T}={\mathbb{E}}_{\mathbf{Z}\sim\mathcal{N}(0,\mathbb{1})}\left[ \argmax_{\hat{\mathbf{T}}}\langle \hat{\mathbf{T}}, (\mathbf{a}_m + \sigma \mathbf{Z}) \mathbf{1}^\top \rangle\mathbf{Z}^\top/\sigma \right],$

为了实验缩放目标，我们将索引矩阵 $\mathbf{T}_m$ 进行扩充，以选择区块特征 $\mathbf{H}_{m'}\in\mathbf{R}^{N\cdot4^{(m'-1)\times D}}$ ，其中 $m^{'} > m$ 。特别地，计算 $\mathbf{T}_m$ 和单位矩阵 $1_{m'}=\text{diag}(1,\dots,1)\in\mathbb{R}^{4^{(m'-1)}\times4^{(m'-1)}}$ 的Kronecker内积来获得索引矩阵 $\mathbf{T}_{m'}\in\{0,1\}^{N\cdot4^{(m'-1)}\times K\cdot4^{(m'-1)}}$ 。与公式3类似，在更高放大倍率 $m^{'}$ 使用注意力权重的区块选择可以计算为：
$\tag{6} \tilde{\mathbf{H}}_{m'}=(\mathbf{T}_m\otimes1_{m'})^\top\mathbf{H}_{m'}.$

2.3 双门注意力和多尺度聚合

图2：ZoomMIL总体流程。(I)和(II)分别表示训练和推理过程

2.3.1 训练阶段

$m = 1$ 时特征矩阵 $\mathbf{H}_1$ 通过双门注意力 (DGA) 模块；
DGA包含两个独立的门注意模块 $\text{GA}_1$ 和 $\text{GA}_1'$ ；
$\text{GA}_1$ 在低缩放下获得基于注意力池化的最优WSI级表示；
$\text{GA}_1'$ 获取有价值的注意力权重 $\mathbf{a}_1'$ ，以促进更高放大倍率的区块选择；
可微top- $K$ 选择模块 $\mathbf{T}_1$ 被用于选择最有信息的区块；
选择过程持续到最大放大倍率 $M$ ；
被选择区块特征 $\tilde{H}_M$ 通过最后一个门控注意力块 $\text{GA}_M$ 来获取特征表示 $\mathbf{g}_M$ ；
加和池化用于汇聚多尺度，并使用分类器 $f(\cdot)$ 获取WSI标签 $\hat{y}\in C$ ；

2.3.2 推理阶段

去掉可微top- $K$ 模块中的扰动，使其变为不可微；
区块选择直接在WSI区块上进行；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/656682