赞
踩
改进:
优点:
缺点:
PS:使用SVD来进行全连接层计算加速 其实可以认为是将一个大的全连接层换成两个小的全连接层
λ
[
u
>
=
1
]
=
{
1
if
u
≥
1
0
otherwise
\lambda[u>=1]=\left\{
目标分类损失:
L
c
l
s
(
p
,
u
)
=
−
l
o
g
p
u
L_{cls}(p,u) = -log p_u
Lcls(p,u)=−logpu
边界框回归损失:
L
b
o
x
(
t
u
,
v
)
=
∑
i
∈
{
x
,
y
,
w
,
h
}
L
1
s
m
o
o
t
h
(
t
i
u
−
v
i
)
\mathcal{L}_{\mathrm{box}}\left(t^{u}, v\right)=\sum_{i \in\{x, y, w, h\}} L_{1}^{\mathrm{smooth}}\left(t_{i}^{u}-v_{i}\right)
Lbox(tu,v)=i∈{x,y,w,h}∑L1smooth(tiu−vi)
L
1
s
m
o
o
t
h
(
x
)
=
{
0.5
x
2
if
∣
x
∣
<
1
∣
x
∣
−
0.5
otherwise
L_{1}^{\mathrm{smooth}}(x)=\left\{
前向传播: 即把窗口内的最大值传递给下一层;
反向传播: 把梯度值传递给前一层窗口内最大值对应的 ID(max id)
设
x
i
x_i
xi 为输入层的节点,
y
r
j
y_{rj}
yrj为第
r
r
r个候选区域的第
j
j
j个输出节点。
一个输入节点可能和多个输出节点相关连,所以损失函数
L
L
L对输入节点
x
i
x_i
xi的梯度为
L
L
L对各个有可能的RoI的输出节点
y
r
j
y_{rj}
yrj梯度的累加:
∂
L
∂
x
i
=
∑
r
∑
j
[
i
=
i
∗
(
r
,
j
)
]
∂
L
∂
y
r
j
\frac{\partial L}{\partial x_{i}}=\sum_{r} \sum_{j}\left[i=i^{*}(r, j)\right] \frac{\partial L}{\partial y_{r j}}
∂xi∂L=r∑j∑[i=i∗(r,j)]∂yrj∂L
判决函数 [ i = i ∗ ( r , j ) ] [i=i^*(r,j)] [i=i∗(r,j)]:表示 i i i节点是否被第 r r r个RoI的第 j j j个输出节点选为最大值输出
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。