赞
踩
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。 给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合 ,可广泛应用于智能视频监控、智能安保等领域。
行人再识别(Person Re-Identification,简称 ReID),从字面意思理解就是对行人进行重新识别,是对不同的、没有视野重叠覆盖的(non-overlapping)摄像机拍摄的行人图像建立对应关系的处理过程。当摄像头拍摄范围之间不存在重叠时,由于没有了连续信息,检索难度也随之增大非常多。因此,行人再识别强调的是在跨摄像机的视频中对特定行人进行检索。
注:图像检索分为两种,一种是基于文本的图像检索,另一种是基于内容的图像检索。基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术是对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术。
基本概述:在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。 [2]
理论上是可以的。但是有两个原因导致人脸识别较难应用:首先,广泛存在后脑勺和侧脸的情况,做正脸的人脸识别难。其次,摄像头拍摄的像素可能不高,尤其是远景摄像头里面人脸截出来很可能都没有32x32的像素。所以人脸识别在实际的重识别应用中很可能有限。
衣服颜色确实是行人重识别 做出判断一个重要因素,但光靠颜色是不足的。首先,摄像头之间是有色差,并且会有光照的影响。其次,有撞衫(颜色相似)的人怎么办,要找细节,但比如颜色直方图这种统计的特征就把细节给忽略了。(颜色直方图的缺点:统计特征粗糙,忽视细节处理)在多个数据集上的测试表明,光用颜色特征是难以达到50%的top1正确率的。
在早期,行人重识别数据集是由两个摄像头采集的比如viper,每个query只有一个正确的retrieval目标。所以往往使用top1比较。但在近期,随着大数据集的提出,数据集中往往包含多个摄像头的多个正确目标。光使用top1的话,不能反应模型的真实能力。所以类似图像检索,重识别加入了mAP作为衡量标准,将top2,top3...topn都考虑进去。
多个摄像头下拍摄行人的角度不同,图像中的行人可能72变。(如图1)所以要正确判断的话,就要找到行人上的局部不变的part(比如:衣服颜色,衣服纹理,手提包,背包等等)。在计算机视觉中,常用的特征就有颜色直方图等等
图1 (DukeMTMC-reID 数据集的retrieval demo)
主要有两种方案:
a.测试的输入是一对行人,输出为这对行人的相似度,然后再按相似度排序;
b.输入单个人,提取特征,再计算与其他人的欧式距离,然后再按距离排序。
第一种方案的优点是,判断两个人是不是一个人,简单的二分类(是/否)。但缺点是如果我们搜索库中有m张图片,那么与目标图片组成m对图片对。每一对都要进一次模型,估算相似度,这极大的增加了测试的时间。如果我们有n个query,那么我们要计算nm次相似度(而m往往很大)。另一种方案是,预先提取行人的特征,我们只要预先提好n+m次特征。之后只要比较就好了,比较特征可以简单的用矩阵乘法实现。
目前两种方案都有在用,但是后一种更接近实际中图像搜索的要求,用特征来快速检索。
概括得不全,比较直接和简要的想法有以下两种(主要在神经网络上实现):
1. Part匹配:一部分一部分来比较。
a.常见方案是水平切条,就是将图像切为几个水平的条。由于人体身材往往差不多,所以可以用简单的水平条来做一一比较 [1,2,3,4]。
b.在领域中做匹配,采用的是一个正方形的领域 [6]。
c.另一个较新的方案是先在人体上检测部件(手,腿,躯干等等)再进行匹配,这样的话可以减少位置的误差,但可能引入检测部件的误差 [7,8]。
d. 类似LSTM的attention匹配,但必须pair输入,测试时间较长。[5,10]
2.Loss设计:常见的几种学习特征表达的loss
a. identification loss 直接拿身份label做多类分类 [9]
b.verification loss [2,3,5,6] (主要是contrastive loss。[3, 6]中采用的是二分类loss)
c. identification loss + verification loss [11,12]
d. triplet loss [10,13,14]
e. 加入辅助任务 比如使用attribute等等 [15],
f. 数据增强 混合多数据集训练 [16] ,加入训练集上GAN生成的数据 [17].
目前有一些公开的代码,可详见之前的知乎回答:有哪些行人重识别公开代码 做了一些汇总。
谢谢您看完~我也是刚刚学习行人重识别,欢迎各种建议。
更多内容 关注 行人重识别 专栏
Reference
[1] Shengcai Liao, Yang Hu, Xiangyu Zhu, and Stan Z Li. 2015. Person re-identification by local maximal occurrence representation and metric http://learning.In CVPR.
[2] Dong Yi, Zhen Lei, Shengcai Liao, and Stan Z Li. 2014. Deep metric learning for person re-identification. In ICPR.
[3] Wei Li, Rui Zhao, Tong Xiao, and Xiaogang Wang. 2014. Deepreid: Deep filter pairing neural network for person re-identification. In CVPR.
[4] Rui Zhao, Wanli Ouyang, and Xiaogang Wang. 2013. Person re-identification by salience matching. In ICCV.
[5] Rahul Rama Varior, Mrinal Haloi, and Gang Wang. 2016. Gated siamese convolutional neural network architecture for human re-identification. In ECCV.
[6] Ejaz Ahmed, Michael Jones, and Tim K Marks. 2015. An improved deep learning architecture for person re-identification. In CVPR.
[7] Liang Zheng, Yujia Huang, Huchuan Lu, and Yi Yang. 2017. Pose Invariant Embedding for Deep Person Re-identication. arXiv:1701.07732.
[8] Dong Seon Cheng, Marco Cristani, Michele Stoppa, Loris Bazzani, and Vittorio Murino. 2011. Custom Pictorial Structures for Re-identification.. In BMVC.
[9] Liang Zheng, Yi Yang, and Alexander G Hauptmann. 2016. Person Re-identification: Past, Present and Future. arXiv:1610.02984
[10] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, and Shuicheng Yan. 2016. End-to-End Comparative Attention Networks for Person Re-identification. arXiv:1606.04404
[11] Zheng Z, Zheng L, Yang Y. A Discriminatively Learned CNN Embedding for Person Re-identification[J]. arXiv preprint arXiv:1611.05666, 2016.
[12] Mengyue Geng, Yaowei Wang, Tao Xiang, and Yonghong Tian. 2016. Deep Transfer Learning for Person Re-identification. arXiv:1603.06765
[13] Shengyong Ding, Liang Lin, Guangrun Wang, and Hongyang Chao. 2015. Deep feature learning with relative distance comparison for person re-identification. Pattern Recognition 48, 10 (2015), 2993–3003.
[14] Alexander Hermans, Lucas Beyer, and Bastian Leibe. 2017. In Defense of the Triplet Loss for Person Re-Identification. arXiv:1703.07737
[15] Yutian Lin, Liang Zheng, Zhedong Zheng, Yu Wu, and Yi Yang. 2017. Improving Person Re-identification by Attribute and Identity Learning. arXiv:1703.07220
[16] Tong Xiao, Hongsheng Li, Wanli Ouyang, and Xiaogang Wang. 2016. Learning deep feature representations with domain guided dropout for person reidentification. In CVPR.
[17] Zhedong Zheng, Liang Zheng, and Yi Yang. 2017. Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro. arXiv:1701.07717
注:3.2-3.7的参考文章地址:https://zhuanlan.zhihu.com/p/26168232
该数据集在杜克大学内采集,图像来自8个不同摄像头。该数据集提供训练集和测试集。 训练集包含16,522张图像,测试集包含 17,661 张图像。训练数据中一共有702人,平均每类(每个人)有23.5 张训练数据。是目前最大的行人重识别数据集,并且提供了行人属性(性别/长短袖/是否背包等)的标注。DukeMTMC-reID 为 DukeMTMC数据集的行人重识别子集。原始数据集地址(http://vision.cs.duke.edu/DukeMTMC/) ,为行人跟踪数据集。原始数据集包含了85分钟的高分辨率视频,采集自8个不同的摄像头。并且提供了人工标注的bounding box.
数据解释: 我们从视频中每120帧采样一张图像,得到了 36,411张图像。一共有1,404个人出现在大于两个摄像头下,有408个人只出现在一个摄像头下。所以我们随机采样了 702(是两个摄像头下人数的一半) 个人作为训练集,702个人作为测试集。在测试集中,我们采样了每个ID的每个摄像头下的一张照片作为 查询图像(query)。剩下的图像加入测试的 搜索库(gallery),并且将之前的 408人作为干扰项,也加到 gallery中。最终,DukeMTMC-reID 包含了 16,522张训练图片(来自702个人), 2,228个查询图像(来自另外的702个人),以及 17,661 张图像的搜索库(gallery)。并提供切割后的图像供下载。
**图像命名规则为**
"0005_c2_f0046985.jpg", "0005" 代表行人的身份. "c2"代表这张图像来自第二个摄像头. "f0046985" 代表来自摄像头2的 第46985帧.另外,DukeMTMC-reID还提供了23种属性数据标注 DukeMTMC-attribute供下载。https://github.com/vana77/DukeMTMC-attribute
该数据集在清华大学校园中采集,图像来自6个不同的摄像头,其中有一个摄像头为低像素。同时该数据集提供训练集和测试集。 训练集包含12,936张图像,测试集包含19,732 张图像。图像由检测器自动检测并切割,包含一些检测误差(接近实际使用情况)。训练数据中一共有751人,测试集中有750人。所以在训练集中,平均每类(每个人)有17.2张训练数据。
该数据集在香港中文大学内采集,图像来自2个不同摄像头。该数据集提供 机器检测和手工检测两个数据集。 其中检测数据集包含一些检测误差,更接近实际情况。平均每个人有9.6张训练数据。
关于行人重识别综述,推荐一下liang zheng 2016年的综述: Past, Present and Future 写了从传统方法到深度学习,从图片到视频的行人重识别的方法。
正式接收的论文名单
Oral:
Spotlight:
Poster:
部分算法在DukeMTMC-reID 效果排名:
DukeMTMC-reID State-of-the-artgithub.comCopyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。