赞
踩
符号说明:
符号 | 含义 |
---|---|
X = { x 1 , ⋯ , x K } X = \{ {\bf{x}}_1, \cdots, {\mathbf{x}}_K \} X={x1,⋯,xK} | 包 |
K K K | 假设不同包大小不同 |
Y Y Y | 包标签 |
y k ∈ { 0 , 1 } y_k \in \{ 0, 1 \} yk∈{0,1} | 假设实例存在标签,但训练阶段未知 |
MIL假设可以重写如下:
Y
=
{
0
,
iff
∑
k
y
k
=
0
,
1
,
otherwise
.
Y =
Y
=
max
k
{
y
k
}
.
Y = \max_k \{ y_k \}.
Y=kmax{yk}. 不过基于最大实例标签的优化方式是有以下问题的:1)梯度消失 (?);2)这个式子适用的前提是有一个实例级别的分类器。
对此,本文认为包标签是
θ
(
X
)
∈
[
0
,
1
]
\theta (X) \in [0, 1]
θ(X)∈[0,1]的伯努利分布。
基于包中实例无序且独立的假设,
θ
(
X
)
\theta (X)
θ(X)必满足permutation-invariant。因此,MIL可以根据对称函数基本定理的特定形式来考虑:
定理1:当且仅当以下式子满足,包的得分函数
S
(
X
)
∈
R
S (X) \in \mathbb{R}
S(X)∈R是一个对称函数:
S
(
X
)
=
g
(
∑
x
∈
X
f
(
x
)
)
,
S (X) = g (\sum_{{\bf{x}} \in X} f ({\bf{x}})),
S(X)=g(x∈X∑f(x)),其中
f
f
f和
g
g
g是你现在不知道的转换函数。
还有一个类似的:
定理2:对于任意的
ϵ
>
0
\epsilon > 0
ϵ>0,Hausdorff连续对称函数
S
(
X
)
∈
R
S (X) \in \mathbb{R}
S(X)∈R能够由
g
(
max
x
∈
X
f
(
x
)
)
g (\max_{{\bf{x}}\in X} f ({\bf{x}}))
g(maxx∈Xf(x))任意近似,其中
max
\max
max按元素最大操作:
∣
S
(
X
)
−
g
(
max
x
∈
X
f
(
x
)
)
∣
<
ϵ
.
|S (X) - g (\max_{{\bf{x}}\in X} f ({\bf{x}}))| < \epsilon.
∣S(X)−g(x∈Xmaxf(x))∣<ϵ. 两者的区别就在于后者可以任意近似。当然,他们提供了一个三步式分类包的方法:
1)
f
f
f转换实例;
2)
σ
\sigma
σ汇总转换后的实例;
3)
g
g
g得到包的得分。
1)实例级别:
f
f
f是一个实例级别的分类器,返回值为每个实例的分数,
g
g
g则是判别函数。
2)嵌入级别:
f
f
f将实例映射为一个低维嵌入;MIL池化用于获取包的表示。
现在说这些就只是说这些而已。
wou~~~~~~~~~~
经典MIL问题中,假设实例是无需进一步处理的特征向量。然而,诸如图像或文本任务,进一步的特征提取是必须的。因此,本文考虑神经网络
f
ψ
(
⋅
)
f_\psi (\cdot)
fψ(⋅)作为转换,其用于将实例
x
k
{\bf{x}}_k
xk转换为低维嵌入,即
h
k
=
f
ψ
(
x
k
)
{\bf{h}}_k = f_\psi ({\bf{x}}_k)
hk=fψ(xk),其中
h
k
∈
H
=
[
0
,
1
]
{\bf{h}}_k \in \mathcal{H} = [0, 1]
hk∈H=[0,1]。
事实上,
θ
(
X
)
\theta (X)
θ(X)由转换
g
ϕ
:
H
→
[
0
,
1
]
g_\phi: \mathcal{H} \rightarrow [0, 1]
gϕ:H→[0,1]确定。
目前,唯一的限制是MIL池化需要适应变化。
最大池化给定为:
∀
m
=
1
,
⋯
,
M
:
z
m
=
max
k
=
1
,
⋯
,
K
{
h
k
m
}
.
\forall_{m = 1, \cdots, M}: z_m = \max_{k = 1, \cdots, K} \{ {\bf{h}}_{km} \}.
∀m=1,⋯,M:zm=k=1,⋯,Kmax{hkm}. 平均池化给定为:
z
=
1
K
∑
k
=
1
K
h
k
.
{\bf{z}} = \frac{1}{K} \sum_{k = 1}^K {\bf{h}}_k.
z=K1k=1∑Khk. 一些其他的池化这里不表。
以前的池化都有一个显著缺陷:1)预定义的;2)非训练的。
对于实例而言,最大池化还是斯国一的,但是对于嵌入方法可就不合适了。相应的,平均池化也是这样。
本文提出一个实例加权方式,权重则由神经网络确定。此外,权重之和需为1。
令
H
=
{
h
1
,
⋯
,
h
K
}
H = \{ {\bf{h}}_1, \cdots, {\bf{h}}_K \}
H={h1,⋯,hK}表示包的嵌入,MIL嵌入的定义如下:
z
=
∑
k
=
1
K
a
k
h
k
,
{\bf{z}} = \sum_{k = 1}^K a_k {\bf{h}}_k,
z=k=1∑Kakhk,其中
a
k
=
exp
{
w
⊤
tanh
(
V
h
k
⊤
)
}
∑
j
=
1
K
exp
{
w
⊤
tanh
(
V
h
j
⊤
)
}
,
a_k = \frac{\exp \{ {\bf{w}}^\top \tanh ({\bf{Vh}}_k^\top)\}}{\sum_{j = 1}^K \exp \{ {\bf{w}}^\top \tanh ({\bf{Vh}}_j^\top)\}},
ak=∑j=1Kexp{w⊤tanh(Vhj⊤)}exp{w⊤tanh(Vhk⊤)},其中
w
∈
R
L
×
1
{\bf{w}} \in \mathbb{R}^{L \times 1}
w∈RL×1,
V
∈
R
L
×
M
{\bf{V}} \in \mathbb{R}^{L \times M}
V∈RL×M。
tanh
\tanh
tanh可能无法很好地适应复杂模型的学习。因此引入门控机制为:
a
k
=
exp
{
w
⊤
tanh
(
V
h
k
⊤
)
}
⊙
sigm
(
U
h
k
⊤
)
∑
j
=
1
K
exp
{
w
⊤
tanh
(
V
h
j
⊤
)
}
⊙
sigm
(
U
h
j
⊤
)
,
a_k = \frac{\exp \{ {\bf{w}}^\top \tanh ({\bf{Vh}}_k^\top)\} \odot \text{sigm} ({\bf{Uh}}_k^\top)}{\sum_{j = 1}^K \exp \{ {\bf{w}}^\top \tanh ({\bf{Vh}}_j^\top)\}\odot \text{sigm} ({\bf{Uh}}_j^\top)},
ak=∑j=1Kexp{w⊤tanh(Vhj⊤)}⊙sigm(Uhj⊤)exp{w⊤tanh(Vhk⊤)}⊙sigm(Uhk⊤),其中
U
∈
R
L
×
M
{\bf{U}} \in \mathbb{R}^{L \times M}
U∈RL×M,
⊙
\odot
⊙是按元素乘法,
sigm
(
⋅
)
\text{sigm} (\cdot)
sigm(⋅)是sigmoid函数。
1)基准
2)MNIST-bags
3)reallife histopathology
5次10折交叉验证。
1)维度
L
L
L:64,128和256
2)参数初始化参照了某人,偏置设置为0
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。