当前位置:   article > 正文

论文阅读 (二十三):Attention-based Deep Multiple Instance Learning (2018)

attention-based deep multiple instance learning (2018)

1 Methodology

1.1 MIL

1.1.1 符号系统

  符号说明:

符号含义
X = { x 1 , ⋯   , x K } X = \{ {\bf{x}}_1, \cdots, {\mathbf{x}}_K \} X={x1,,xK}
K K K假设不同包大小不同
Y Y Y包标签
y k ∈ { 0 , 1 } y_k \in \{ 0, 1 \} yk{0,1}假设实例存在标签,但训练阶段未知

  MIL假设可以重写如下:
Y = { 0 , iff ∑ k y k = 0 , 1 , otherwise . Y =

{0,iffkyk=0,1,otherwise.
Y=0,1,iffkyk=0,otherwise.  该假设暗含MIL模型是permutation-invariant。此外,以上操作可以制定为以下:
Y = max ⁡ k { y k } . Y = \max_k \{ y_k \}. Y=kmax{yk}.  不过基于最大实例标签的优化方式是有以下问题的:1)梯度消失 (?);2)这个式子适用的前提是有一个实例级别的分类器。
  对此,本文认为包标签是 θ ( X ) ∈ [ 0 , 1 ] \theta (X) \in [0, 1] θ(X)[0,1]的伯努利分布。

1.1.2 实例与包的联系

  基于包中实例无序且独立的假设, θ ( X ) \theta (X) θ(X)必满足permutation-invariant。因此,MIL可以根据对称函数基本定理的特定形式来考虑:
  定理1:当且仅当以下式子满足,包的得分函数 S ( X ) ∈ R S (X) \in \mathbb{R} S(X)R是一个对称函数:
S ( X ) = g ( ∑ x ∈ X f ( x ) ) , S (X) = g (\sum_{{\bf{x}} \in X} f ({\bf{x}})), S(X)=g(xXf(x)),其中 f f f g g g是你现在不知道的转换函数。
  还有一个类似的:
  定理2:对于任意的 ϵ > 0 \epsilon > 0 ϵ>0,Hausdorff连续对称函数 S ( X ) ∈ R S (X) \in \mathbb{R} S(X)R能够由 g ( max ⁡ x ∈ X f ( x ) ) g (\max_{{\bf{x}}\in X} f ({\bf{x}})) g(maxxXf(x))任意近似,其中 max ⁡ \max max按元素最大操作:
∣ S ( X ) − g ( max ⁡ x ∈ X f ( x ) ) ∣ < ϵ . |S (X) - g (\max_{{\bf{x}}\in X} f ({\bf{x}}))| < \epsilon. S(X)g(xXmaxf(x))<ϵ.  两者的区别就在于后者可以任意近似。当然,他们提供了一个三步式分类包的方法:
  1) f f f转换实例;
  2) σ \sigma σ汇总转换后的实例;
  3) g g g得到包的得分。

1.1.3 MIL方法

  1)实例级别 f f f是一个实例级别的分类器,返回值为每个实例的分数, g g g则是判别函数。
  2)嵌入级别 f f f将实例映射为一个低维嵌入;MIL池化用于获取包的表示。
  现在说这些就只是说这些而已。
  wou~~~~~~~~~~

1.2 MINN

  经典MIL问题中,假设实例是无需进一步处理的特征向量。然而,诸如图像或文本任务,进一步的特征提取是必须的。因此,本文考虑神经网络 f ψ ( ⋅ ) f_\psi (\cdot) fψ()作为转换,其用于将实例 x k {\bf{x}}_k xk转换为低维嵌入,即 h k = f ψ ( x k ) {\bf{h}}_k = f_\psi ({\bf{x}}_k) hk=fψ(xk),其中 h k ∈ H = [ 0 , 1 ] {\bf{h}}_k \in \mathcal{H} = [0, 1] hkH=[0,1]
  事实上, θ ( X ) \theta (X) θ(X)由转换 g ϕ : H → [ 0 , 1 ] g_\phi: \mathcal{H} \rightarrow [0, 1] gϕ:H[0,1]确定。
  目前,唯一的限制是MIL池化需要适应变化。

1.3 MIL池化

  最大池化给定为:
∀ m = 1 , ⋯   , M : z m = max ⁡ k = 1 , ⋯   , K { h k m } . \forall_{m = 1, \cdots, M}: z_m = \max_{k = 1, \cdots, K} \{ {\bf{h}}_{km} \}. m=1,,M:zm=k=1,,Kmax{hkm}.  平均池化给定为:
z = 1 K ∑ k = 1 K h k . {\bf{z}} = \frac{1}{K} \sum_{k = 1}^K {\bf{h}}_k. z=K1k=1Khk.  一些其他的池化这里不表。

1.4 注意力机制池化

  以前的池化都有一个显著缺陷:1)预定义的;2)非训练的。
  对于实例而言,最大池化还是斯国一的,但是对于嵌入方法可就不合适了。相应的,平均池化也是这样。

1.4.1 注意力机制

  本文提出一个实例加权方式,权重则由神经网络确定。此外,权重之和需为1。
  令 H = { h 1 , ⋯   , h K } H = \{ {\bf{h}}_1, \cdots, {\bf{h}}_K \} H={h1,,hK}表示包的嵌入,MIL嵌入的定义如下:
z = ∑ k = 1 K a k h k , {\bf{z}} = \sum_{k = 1}^K a_k {\bf{h}}_k, z=k=1Kakhk,其中
a k = exp ⁡ { w ⊤ tanh ⁡ ( V h k ⊤ ) } ∑ j = 1 K exp ⁡ { w ⊤ tanh ⁡ ( V h j ⊤ ) } , a_k = \frac{\exp \{ {\bf{w}}^\top \tanh ({\bf{Vh}}_k^\top)\}}{\sum_{j = 1}^K \exp \{ {\bf{w}}^\top \tanh ({\bf{Vh}}_j^\top)\}}, ak=j=1Kexp{wtanh(Vhj)}exp{wtanh(Vhk)},其中 w ∈ R L × 1 {\bf{w}} \in \mathbb{R}^{L \times 1} wRL×1 V ∈ R L × M {\bf{V}} \in \mathbb{R}^{L \times M} VRL×M

1.4.2 门控注意力机制

   tanh ⁡ \tanh tanh可能无法很好地适应复杂模型的学习。因此引入门控机制为:
a k = exp ⁡ { w ⊤ tanh ⁡ ( V h k ⊤ ) } ⊙ sigm ( U h k ⊤ ) ∑ j = 1 K exp ⁡ { w ⊤ tanh ⁡ ( V h j ⊤ ) } ⊙ sigm ( U h j ⊤ ) , a_k = \frac{\exp \{ {\bf{w}}^\top \tanh ({\bf{Vh}}_k^\top)\} \odot \text{sigm} ({\bf{Uh}}_k^\top)}{\sum_{j = 1}^K \exp \{ {\bf{w}}^\top \tanh ({\bf{Vh}}_j^\top)\}\odot \text{sigm} ({\bf{Uh}}_j^\top)}, ak=j=1Kexp{wtanh(Vhj)}sigm(Uhj)exp{wtanh(Vhk)}sigm(Uhk),其中 U ∈ R L × M {\bf{U}} \in \mathbb{R}^{L \times M} URL×M ⊙ \odot 是按元素乘法, sigm ( ⋅ ) \text{sigm} (\cdot) sigm()是sigmoid函数。

2 实验

2.1 数据集

  1)基准
  2)MNIST-bags
  3)reallife histopathology

2.2 评估手段

  5次10折交叉验证。

2.3 参数设置

  1)维度 L L L:64,128和256
  2)参数初始化参照了某人,偏置设置为0

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/656656
推荐阅读
相关标签
  

闽ICP备14008679号