赞
踩
在人的感知系统所获得的信息中,视觉信息大约占到80%~85%。行人重识别(person re-identification)是近几年智能视频分析领域兴起的一项新技术,属于在复杂视频环境下的图像处理和分析范畴,是许多监控和安防应用中的主要任务,并且在计算机视觉领域获得了越来越多的关注。下面我们就仔细来聊聊行人重识别(ReID)。
首先,假如有两张输入图片
I
1
{I_1}
I1和
I
2
{I_2}
I2,通过网络我们可以得到他们的特征
f
I
1
{f_{{I_1}}}
fI1和
f
I
2
{f_{{I_2}}}
fI2。我们定义这两张图片特征向量的欧式距离为:
d
I
1
,
I
2
=
∥
f
I
1
−
f
I
1
∥
2
{d_{{I_1},{I_2}}} = {\left\| {{f_{{I_1}}} - {f_{{I_1}}}} \right\|_2}
dI1,I2=∥fI1−fI1∥2
1)对比损失(Contrastive loss)
对比损失用于训练孪生网络(Siamese network),其结构图如上图6所示。孪生网络的输入为一对(两张)图片
x
1
{x_1}
x1和
x
2
{x_2}
x2,这两张图片可以为同一行人,也可以为不同行人。每一对训练图片都有一个标签
y
y
y,其中
y
=
1
y = 1
y=1,表示两张图片属于同一个行人(正样本对),反之
y
=
0
y = 0
y=0表示它们属于不同行人(负样本对)。之后,对比损失函数写作:
L
c
=
y
E
w
2
+
(
1
−
y
)
(
α
−
E
w
)
+
2
{L_c} = yE_w^2 + (1 - y)(\alpha - {E_w})_ + ^2
Lc=yEw2+(1−y)(α−Ew)+2,其中
E
w
=
∥
G
w
(
x
1
)
−
G
w
(
x
2
)
∥
{E_w} = \left\| {{G_w}({x_1}) - {G_w}({x_2})} \right\|
Ew=∥Gw(x1)−Gw(x2)∥
其中
(
z
)
+
{(z)_ + }
(z)+表示
max
(
z
,
0
)
\max (z,0)
max(z,0),
α
\alpha
α是根据实际需求设计的阈值参数。为了最小化损失函数,当网络输入一对正样本对,
E
w
{E_w}
Ew会逐渐变小,即相同ID的行人图片会逐渐在特征空间形成聚类。反之,当网络输入一对负样本对时,
E
w
{E_w}
Ew 会逐渐变大直到超过设定的
α
\alpha
α,通过最小化
L
c
{L_c}
Lc,最后可以使得正样本对之间的距离逐渐变小,负样本对之间的距离逐渐变大,从而满足行人重识别任务的需要。
(2)三元组损失(Triplet loss):三元组损失是一种被广泛应用的度量学习损失,之后的大量度量学习方法也是基于三元组损失演变而来。顾名思义,三元组损失需要三张输入图片。和对比损失不同,一个输入的三元组(Triplet)包括一对正样本对和一对负样本对。三张图片分别命名为固定图片(Anchor)
a
a
a,正样本图片(Positive)
p
p
p和负样本图片(Negative)
n
n
n。图片
a
a
a 和图片
p
p
p 为一对正样本对,图片
a
a
a 和图片
n
n
n 为一对负样本对。则三元组损失表示为:
L
t
=
(
d
a
,
p
−
d
a
,
n
+
α
)
+
{L_t}{\rm{ = (}}{{\rm{d}}_{a,p}}{\rm{ - }}{{\rm{d}}_{a,n}}{\rm{ + }}\alpha {{\rm{)}}_ + }
Lt=(da,p−da,n+α)+如下图7所示,三元组可以拉近正样本对之间的距离,推开负样本对之间的距离,最后使得相同ID的行人图片在特征空间里形成聚类,达到行人重识别的目的。
L
t
t
=
d
a
,
p
+
(
d
a
,
p
−
d
a
,
n
+
α
)
+
{L_t}{\rm{t = }}{{\rm{d}}_{a,p}} + {{\rm{(}}{{\rm{d}}_{a,p}}{\rm{ - }}{{\rm{d}}_{a,n}}{\rm{ + }}\alpha {\rm{)}}_ + }
Ltt=da,p+(da,p−da,n+α)+公式添加
d
a
,
p
{{\rm{d}}_{a,p}}
da,p$项,保证网络不仅能够在特征空间把正负样本推开,也能保证正样本对之间的距离很近。
(3) 四元组损失(Quadruplet loss):四元组损失是三元组损失的另一个改进版本。顾名思义,四元组(Quadruplet)需要四张输入图片,和三元组不同的是多了一张负样本图片。即四张图片为固定图片(Anchor)
a
a
a,正样本图片(Positive)
p
p
p ,负样本图片1(Negative1)
n
1
n1
n1 和负样本图片2(Negative2)
n
2
n2
n2 。其中
n
1
n1
n1和
n
2
n2
n2 是两张不同行人ID的图片,其结构则四元组损失表示为:
q
=
(
d
a
,
p
−
d
a
,
n
1
+
α
)
+
+
(
d
a
,
p
−
d
a
,
n
2
+
β
)
+
q{\rm{ = (}}{{\rm{d}}_{a,p}} - {{\rm{d}}_{a,{n_1}}}{\rm{ + }}\alpha {{\rm{)}}_ + } + {{\rm{(}}{{\rm{d}}_{a,p}} - {{\rm{d}}_{a,{n_2}}}{\rm{ + }}\beta {\rm{)}}_ + }
q=(da,p−da,n1+α)++(da,p−da,n2+β)+其中
α
\alpha
α 和
β
\beta
β 是手动设置的正常数,通常设置
β
\beta
β 小于$ \alpha$ ,前一项称为强推动,后一项称为弱推动。相比于三元组损失只考虑正负样本间的相对距离,四元组添加的第二项不共享ID,所以考虑的是正负样本间的绝对距离。因此,四元组损失通常能让模型学习到更好的表征。
(4)难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss):难样采样三元组损失(本文之后用TriHard损失表示)是三元组损失的改进版。传统的三元组随机从训练数据中抽样三张图片,这样的做法虽然比较简单,但是抽样出来的大部分都是简单易区分的样本对。如果大量训练的样本对都是简单的样本对,那么这是不利于网络学习到更好的表征。大量论文发现用更难的样本去训练网络能够提高网络的泛化能力,而采样难样本对的方法很多。之前提出了一种基于训练批量(Batch)的在线难样本采样方法——TriHard Loss。TriHard损失的核心思想是:对于每一个训练batch,随机挑选
P
P
P 个ID的行人,每个行人随机挑选
K
K
K 张不同的图片,即一个batch含有
P
×
K
P \times K
P×K 张图片。之后对于batch中的每一张图片
a
a
a ,我们可以挑选一个最难的正样本和一个最难的负样本和
a
a
a 组成一个三元组。首先我们定义和
a
a
a 为相同ID的图片集为
A
A
A ,剩下不同ID的图片图片集为
B
B
B,则TriHard损失表示为:
L
t
h
=
1
P
×
K
∑
a
∈
b
a
t
c
h
(
max
p
∈
A
d
a
,
p
−
min
n
∈
B
d
a
,
n
+
α
)
+
{L_{th}} = {1 \over {P \times K}}{\sum\limits_{a \in batch} {(\mathop {\max }\limits_{p \in A} {d_{a,p}} - \mathop {\min }\limits_{n \in B} {d_{a,n}} + \alpha )} _ + }
Lth=P×K1a∈batch∑(p∈Amaxda,p−n∈Bminda,n+α)+其中
α
\alpha
α 是人为设定的阈值参数。TriHard损失会计算
a
a
a 和batch中的每一张图片在特征空间的欧式距离,然后选出与
a
a
a 距离最远(最不像)的正样本
p
p
p 和距离最近(最像)的负样本
n
n
n 来计算三元组损失。通常TriHard损失效果比传统的三元组损失要好。
③基于局部特征的ReID方法:早期的ReID研究大家还主要关注点在全局的global feature上,就是用整图得到一个特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈,于是开始渐渐研究起局部的local feature。常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等。(1)图片8切块是一种很常见的提取局部特征方式。如下图所示,图片被垂直等分为若干份,因为垂直切割更符合我们对人体识别的直观感受,所以行人重识别领域很少用到水平切割。
AMOC的核心思想在于网络除了要提取序列图像的特征,还要提取运动光流的运动特征。AMOC拥有空间信息网络(Spatial network, Spat Nets)和运动信息网络两个子网络。图像序列的每一帧图像都被输入到Spat Nets来提取图像的全局内容特征。而相邻的两帧将会送到Moti Nets来提取光流图特征。之后空间特征和光流特征融合后输入到一个RNN来提取时序特征。通过AMOC网络,每个图像序列都能被提取出一个融合了内容信息、运动信息的特征。网络采用了分类损失和对比损失来训练模型。融合了运动信息的序列图像特征能够提高行人重识别的准确度。
论文从另外一个角度展示了多帧序列弥补单帧信息不足的作用,目前大部分video based ReID方法还是不管三七二十一的把序列信息输给网络,让网络去自己学有用的信息,并没有直观的去解释为什么多帧信息有用。则很明确地指出当单帧图像遇到遮挡等情况的时候,可以用多帧的其他信息来弥补,直接诱导网络去对图片进行一个质量判断,降低质量差的帧的重要度。如图15,文章认为在遮挡较严重的情况下,如果用一般的pooling会造成attention map变差,遮挡区域的特征会丢失很多。而利用论文的方法每帧进行一个质量判断,就可以着重考虑那些比较完整的几帧,使得attention map比较完整。而关键的实现就是利用一个pose estimation的网络,论文叫做landmark detector。当landmark不完整的时候就证明存在遮挡,则图片质量就会变差。之后pose feature map和global feature map都同时输入到网络,让网络对每帧进行一个权重判断,给高质量帧打上高权重,然后对feature map进行一个线性叠加。思路比较简单但是还是比较让人信服的。
论文是第一篇用GAN做ReID的文章,发表在ICCV17会议,虽然论文比较简单,但是作为挖坑鼻祖引出一系列很好的工作。如下图16,这篇论文生成的图像质量还不是很高,甚至可以用很惨来形容。另外一个问题就是由于图像是随机生成的,也就是说是没有可以标注label可以用。为了解决这个问题,论文提出一个标签平滑的方法。实际操作也很简单,就是把label vector每一个元素的值都取一样,满足加起来为1。反正也看不出属于哪个人,那就一碗水端平。生成的图像作为训练数据加入到训练之中,由于当时的baseline还不像现在这么高,所以效果还挺明显的,至少数据量多了过拟合能避免很多。
ReID的其中一个难点就是姿态的不同,为了克服这个问题论文使用GAN造出了一系列标准的姿态图片。论文总共提取了8个pose,这个8个pose基本涵盖了各个角度。每一张图片都生成这样标准的8个pose,那么pose不同的问题就解决。最终用这些图片的feature进行一个average pooling得到最终的feature,这个feature融合了各个pose的信息,很好地解决的pose bias问题。无论从生成图还是从实验的结果来看,这个工作都是很不错的。这个工作把single query做成了multi query,但是你没法反驳,因为所有的图都是GAN生成的。除了生成这些图需要额外的时间开销以外,并没有利用额外的数据信息。当然这个工作也需要一个预训练的pose estimation网络来进行pose提取。
2.1.如果识别结果是m1、m2、m3、m4、m5……,则此时rank-1的正确率为100%;rank-2的正确率也为100%;rank-5的正确率也为100%;
2.2.如果识别结果是m2、m1、m3、m4、m5……,则此时rank-1的正确率为0%;rank-2的正确率为100%;rank-5的正确率也为100%;
2.3.如果识别结果是m2、m3、m4、m5、m1……,则此时rank-1的正确率为0%;rank-2的正确率为0%;rank-5的正确率为100%;
同理,当待识别的人脸集合有很多时,则采取取平均值的做法。例如待识别人脸有3个(假如label为m1,m2,m3),同样对每一个人脸都有一个从高到低的得分,
2-1.比如人脸1结果为m1、m2、m3、m4、m5……,人脸2结果为m2、m1、m3、m4、m5……,人脸3结果m3、m1、m2、m4、m5……,则此时rank-1的正确率为(1+1+1)/3=100%;rank-2的正确率也为(1+1+1)/3=100%;rank-5的正确率也为(1+1+1)/3=100%;
2-2.比如人脸1结果为m4、m2、m3、m5、m6……,人脸2结果为m1、m2、m3、m4、m5……,人脸3结果m3、m1、m2、m4、m5……,则此时rank-1的正确率为(0+0+1)/3=33.33%;rank-2的正确率为(0+1+1)/3=66.66%;rank-5的正确率也为(0+1+1)/3=66.66%;
3.Precision & Recall & mAP
一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。
3.1.第一次检索到m1,提取出的正确信息条数=1,提取出的信息条数=1,样本中的信息条数=3,正确率=1/1=100%,召回率=1/3=33.33%;
3.2.第二次检索到m1,提取出的正确信息条数=2,提取出的信息条数=3,样本中的信息条数=3,正确率=2/3=66.66%,召回率=2/3=66.66%;
3.3.第三次检索到m1,提取出的正确信息条数=3,提取出的信息条数=6,样本中的信息条数=3,正确率=3/6=50%,召回率=3/3=100%;
平均正确率AP=(100%+66.66%+50%)/3=72.22%
而当需要检索的不止一个人时,此时正确率则取所有人的平均mAP。
4.F-Score
从上面准确率和召回率之间的关系可以看出,一般情况下,
P
r
e
c
i
s
i
o
n
Precision
Precision高,
R
e
c
a
l
l
Recall
Recall就低,
R
e
c
a
l
l
Recall
Recall高,
P
r
e
c
i
s
i
o
n
Precision
Precision就低。所以在实际中常常需要根据具体情况做出取舍,例如一般的搜索情况,在保证召回率的条件下,尽量提升精确率。很多时候我们需要综合权衡这2个指标,这就引出了一个新的指标
F
−
s
c
o
r
F-scor
F−score。这是综合考虑
P
r
e
c
i
s
i
o
n
Precision
Precision和
R
e
c
a
l
l
Recall
Recall的调和值。
F
−
S
c
o
r
e
=
(
1
+
β
2
)
Pr
e
c
i
s
i
o
n
R
e
c
a
l
l
β
2
Pr
e
c
i
s
i
o
n
+
R
e
c
a
l
l
F - Score = (1 + {\beta ^2}){{\Pr ecision{\mathop{\rm Re}\nolimits} call} \over {{\beta ^2}\Pr ecision + {\mathop{\rm Re}\nolimits} call}}
F−Score=(1+β2)β2Precision+RecallPrecisionRecall
当
β
=
1
β=1
β=1时,称为
F
1
−
s
c
o
r
e
F1-score
F1−score,这时,精确率和召回率都很重要,权重相同。当有些情况下,我们认为精确率更重要些,那就调整β的值小于1,如果我们认为召回率更重要些,那就调整β的值大于1。
比如在上面的例子中,在第三次检索到m1时的争取率为50%,召回率为100%,则F1-score=(20.51)/(0.5+1)=66.66%,而F0.5-score=(1.250.51)/(0.25*0.5+1)=55.56%
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。