当前位置:   article > 正文

论文阅读 (28):Loss-Based Attention for Deep Multiple Instance Learning (2020)

loss-based attention for deep multiple instance learning

引入

  问题:
  1)注意力机制被广泛用于深度学习,却少有用来解决多示例问题;
  2)已有的多示例方法利用注意力机制来学习实例权重,再雇佣一个全连接层来预测包的标签。因此包的标签将很大程度上决定于习得的权重;
  解决:
  1)提出了一种全新的基于注意力机制的损失函数,在计算权重的同时完成预测;
  2)利用一致性代价来提升模型的泛化性能。
  源代码:
  https://github.com/xsshi2015/Loss-Attention
  主要流程如下图:
  1)数字1表示用于获取实例特征的传统或卷积神经网络;
  2)数字2表示接指数函数的全连接层;
  3)实例权重和实例损失点积后求和作为融合的实例损失;
  4)包损失基于softmax加交叉熵计算获得;
  5)平方损失是训练过程的一致性代价。

1 Loss attention

1.1 交叉熵

  部分符号表如下:

符号含义
x \mathbf{x} x训练图像
y ∈ { 0 , 1 , … , K − 1 } y\in\{0,1,\dots,K-1\} y{0,1,,K1}图像标签
K K K图像类别数
f ( ⋅ ) f(\cdot) f()神经网络
z = f ( x ) ∈ R K \mathbf{z}=f(\mathbf{x})\in\mathbb{R}^K z=f(x)RK网络输出

  基于softmax函数, x \mathbf{x} x的属于每一类的概率预测如下:
q k = e x p ( z k ) ∑ c K − 1 e x p ( z c ) , (1) \tag{1} q_k=\frac{exp(z_k)}{\sum_c^{K-1}exp(z_c)}, qk=cK1exp(zc)exp(zk),(1)其中 e x p exp exp表示指数函数。
  令 p c ∈ { 0 , 1 } p_c\in\{0,1\} pc{0,1}表示 x \mathbf{x} x的真实类别,则 p ∈ 0 , 1 K \mathbf{p}\in{0,1}^K p0,1K q ∈ { 0 , 1 } K \mathbf{q}\in\{0,1\}^K q{0,1}K的交叉熵计算如下
L ( p , q ) = − ∑ c = 0 K − 1 p c l o g q c . (2) \tag{2} L(\mathbf{p}, \mathbf{q})=-\sum_{c=0}^{K-1}p_clog q_c. L(p,q)=c=0K1pclogqc.(2)由于 ∑ c = 0 K − 1 p c = 1 \sum_{c=0}^{K-1}p_c=1 c=0K1pc=1,且当 x \mathbf{x} x属于 k k k类时,有 p k = 1 p_k=1 pk=1 ∑ c = 0 , c ≠ k K − 1 p c = 0 \sum_{c=0,c\neq k}^{K-1}p_c=0 c=0,c=kK1pc=0。因此 式 (2)等价于:
L ( p , q ) = − l o g e x p ( z k ) ∑ c = 0 K − 1 e x p ( z c ) (3) \tag{3} L(\mathbf{p}, \mathbf{q})=-log \frac{exp(z_k)}{\sum_{c=0}^{K-1}exp(z_c)} L(p,q)=logc=0K1exp(zc)exp(zk)(3)

1.2 基于损失的注意力机制

  部分符号表如下:

符号含义
X = { X 1 , X 2 , … , X n } \mathbf{X}=\{\mathbf{X}_1, \mathbf{X}_2,\dots,\mathbf{X}_n\} X={X1,X2,,Xn}训练图像集合
X i = { x i , 1 , x i , 2 , … , x i , n i } \mathbf{X}_i=\{\mathbf{x}_{i,1},\mathbf{x}_{i,2},\dots,\mathbf{x}_{i,n_i}\} Xi={xi,1,xi,2,,xi,ni}
y i y_i yi包标签
x i , t \mathbf{x}_{i,t} xi,t t t t个实例
y i , t y_{i,t} yi,t实例标签

  假设一: 包中至少包含两类实例,即 y i , t = 0 y_{i,t}=0 yi,t=0和一个其他类别的实例 y i , t ∈ { 1 , … , K − 1 } y_{i,t}\in\{1,\dots,K-1\} yi,t{1,,K1},则:
y i = max ⁡ 1 ≤ t ≤ n i y i , t . (4) \tag{4} y_i = \max_{1\leq t\leq n_i}y_{i,t}. yi=1tnimaxyi,t.(4)  假设二: 包中的每一个实例拥有相同的意义,且一个 L L L层带有平均操作网络可以获取实例的低维表示。
  给定一个实例 x i , t \mathbf{x}_{i,t} xi,t,令 h i , t l ( 1 ≤ l ≤ L − 1 ) h_{i,t}^l(1\leq l\leq L-1) hi,tl(1lL1)表示第 l l l层的特征表示。例如 h i , t L − 1 = g ( h i , t L − 2 ) ∈ R d \mathbf{h}_{i,t}^{L-1}=g(\mathbf{h}_{i,t}^{L-2})\in\mathbb{R}^d hi,tL1=g(hi,tL2)Rd是第 L − 1 L-1 L1层的输出和第 L L L层的输入,其中 g ( ⋅ ) g(\cdot) g()是激活函数, h i , 2 L − 2 \mathbf{h}_{i,2}^{L-2} hi,2L2 L − 1 L-1 L1层的输入。
  假设三: W ∈ R d × K \mathbf{W}\in\mathbb{R}^{d\times K} WRd×K b ∈ R K \mathbf{b}\in\mathbb{R}^K bRK分别 L L L层表示权重矩阵和偏置向量,则神经网络的最终输出为 z i = h i L − 1 W + b \mathbf{z}_i = \mathbf{h}_i^{L-1}\mathbf{W}+\mathbf{b} zi=hiL1W+b,其中 h i L − 1 = 1 n i ∑ t = 1 n i h i , t L − 1 \mathbf{h}_i^{L-1}=\frac{1}{n_i}\sum_{t=1}^{n_i}\mathbf{h}_{i,t}^{L-1} hiL1=ni1t=1nihi,tL1,以及 z i ∈ R K \mathbf{z}_i\in\mathbb{R}^K ziRK表示包的类别预测向量。
  当每个包中的实例的重要性不同时,我们引入注意力机制如下:
α i , j = ∑ c = 0 K − 1 exp ⁡ ( h i , j L − 1 w c + b c ) ∑ t = 1 n i ∑ c = 0 K − 1 exp ⁡ ( h i , t L − 1 w c + b c ) h i , j L − 1 ← α i , j h i , j L − 1 h i L − 1 = ∑ t = 1 n i h i , t L − 1 , (5) \tag{5}

αi,j=c=0K1exp(hi,jL1wc+bc)t=1nic=0K1exp(hi,tL1wc+bc)hi,jL1αi,jhi,jL1hiL1=t=1nihi,tL1,
αi,j=t=1nic=0K1exp(hi,tL1wc+bc)c=0K1exp(hi,jL1wc+bc)hi,jL1αi,jhi,jL1hiL1=t=1nihi,tL1,(5)其中 α i , j \alpha_{i,j} αi,j表示实例 x i , j \mathbf{x}_{i,j} xi,j的权重, w c ∈ R d \mathbf{w}_c\in\mathbb{R}^d wcRd是是 W \mathbf{W} W的第 c c c列, b c b_c bc b \mathbf{b} b的第 c c c个值。
  最终的损失函数如下:
L = L 1 + L 2 = − log ⁡ exp ⁡ ( h i L − 1 w k + b k ) ∑ c = 0 K − 1 exp ⁡ ( h i L − 1 w c + b c ) − λ ∑ t = 1 n i α i , t log ⁡ exp ⁡ ( h i , t L − 1 w k + b k ) ∑ c = 0 K − 1 exp ⁡ ( h i , t L − 1 w c + b c ) , (6) \tag{6}
L=L1+L2=logexp(hiL1wk+bk)c=0K1exp(hiL1wc+bc)λt=1niαi,tlogexp(hi,tL1wk+bk)c=0K1exp(hi,tL1wc+bc),
L=L1+L2=logc=0K1exp(hiL1wc+bc)exp(hiL1wk+bk)λt=1niαi,tlogc=0K1exp(hi,tL1wc+bc)exp(hi,tL1wk+bk),(6)
其中 L 1 L_1 L1是包损失, L 2 L_2 L2是融合的实例损失,作为正则项, λ > 0 \lambda>0 λ>0则用于平衡两个优化项。需要说明的是,由于 z i = h i L − 1 W + b \mathbf{z}_i=\mathbf{h}_i^{L-1}\mathbf{W}+\mathbf{b} zi=hiL1W+b h i L − 1 = ∑ t = 1 n i h i , t L − 1 \mathbf{h}_i^{L-1}=\sum_{t=1}^{n_i}\mathbf{h}_{i,t}^{L-1} hiL1=t=1nihi,tL1,故 z i , k = h i L − 1 w k + b k z_{i,k}=\mathbf{h}_i^{L-1}\mathbf{w}_k+b_k zi,k=hiL1wk+bk z i , t , k = h i , t L − 1 w k + b k z_{i,t,k}=\mathbf{h}_{i,t}^{L-1}\mathbf{w}_k+b_k zi,t,k=hi,tL1wk+bk z i , k = ∑ t = 1 n i z i , t , k z_{i,k}=\sum_{t=1}^{n_i}z_{i,t,k} zi,k=t=1nizi,t,k,其中 t ∈ [ 1.. n i ] t\in[1..n_i] t[1..ni] c ∈ [ 0.. K − 1 ] c\in[0..K-1] c[0..K1]
  式 (5) (6)主要的启发点如下:
  1)实例权重在其标签与所属包不一致时,应该趋近于零;
  2)当 L 2 → L_2\to L2时,如果第 j j j个实例的 α i j ≫ 0 \alpha_{ij}\gg0 αij0且属于第 k k k类,则必有 e x p ( z i , j , k ) ≈ ∑ c = 0 K − 1 e x p ( z i , j , c ) exp(z_{i,j,k})\approx\sum_{c=0}^{K-1}exp(z_{i,j,c}) exp(zi,j,k)c=0K1exp(zi,j,c)
  3)如第 r r r个实例的 α i , r → 0 \alpha_{i,r}\to0 αi,r0,则意味着 ∑ c = 0 K − 1 e x p ( z i , r , c ) \sum_{c=0}^{K-1}exp(z_{i,r,c}) c=0K1exp(zi,r,c) e x p ( z i , r , k ) exp(z_{i,r,k}) exp(zi,r,k)可以忽略。
  为了平衡训练过程,我们首次加入集成目标到实例权重。具体的,对于 α i , t \alpha_{i,t} αi,t,对于每一个训练批次,将累积作为集成权重 α ~ i , t = β α i , t ~ + ( 1 − β ) α i , t \tilde{\alpha}_{i,t}=\beta\tilde{\alpha_{i,t}}+(1-\beta)\alpha_{i,t} α~i,t=βαi,t~+(1β)αi,t,其中 β ≥ 0 \beta\geq0 β0用于决定集成权重与历史记录的偏离程度。然后,利用一致性代价 ∥ α i , t − α ~ i , t ∥ 2 2 \|\alpha_{i,t}-\tilde{\alpha}_{i,t}\|_2^2 αi,tα~i,t22来为每个实例制定一致性预测。最终的损失函数如下:
L p = L 1 + L 2 + L 3 = − log ⁡ exp ⁡ ( h i L − 1 w k + b k ) ∑ c = 0 K − 1 exp ⁡ ( h i L − 1 w c + b c ) − λ ∑ t = 1 n i α i , t log ⁡ exp ⁡ ( h i , t L − 1 w k + b k ) ∑ c = 0 K − 1 exp ⁡ ( h i , t L − 1 w c + b c ) + ω ( m ) ∑ t = 1 n i ∥ α i , t − α ~ i , t ∥ 2 2 ,
Lp=L1+L2+L3=logexp(hiL1wk+bk)c=0K1exp(hiL1wc+bc)λt=1niαi,tlogexp(hi,tL1wk+bk)c=0K1exp(hi,tL1wc+bc)+ω(m)t=1niαi,tα~i,t22,
Lp=L1+L2+L3=logc=0K1exp(hiL1wc+bc)exp(hiL1wk+bk)λt=1niαi,tlogc=0K1exp(hi,tL1wc+bc)exp(hi,tL1wk+bk)+ω(m)t=1niαi,tα~i,t22,
其中 ω ( m ) \omega(m) ω(m)依赖于训练轮次 m m m,用于逐渐提升 L 3 L_3 L3的权重。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/656721
推荐阅读
相关标签
  

闽ICP备14008679号