赞
踩
目录
本文只对行人重识别的各个方向进行大致梳理,不涉及或只简要概括算法。
行人重识别(以下简称reid)问题是在没有重叠场景的摄像机拍摄画面下,对目标行人进行检索。
现阶段的reid问题主要分为两大类:closed-world和open-world。说人话就是,closed-world重在研究,主要是从一大堆行人的bounding box图片中去检索目标行人,而open-world重在“落地”,主要是直接从视频中去检索目标行人,或者是偏向无监督、弱监督学习。以下是两个world的具体区别。
在了解reid之前,我们需要知道什么是Query和Gallery。Query其实就是目标行人(person of interest),而Gallery就是检索的库,也就是一大堆行人的照片或者视频。
宽泛地讲,Query和Gallery的形式有很多种,Query可以是一个行人的bounding box(照片)(一张或多张),也可以是一段视频,但是无论是图片还是视频,画面中一定只能有一个人例如:(图片取自Market-1501)
Gallery可以是从一整张画面截取的每个行人的bounding box,也可以是一段视频,例如:(图片取自Market-1501)
reid最主要的难点就在于:
而对于现实的“落地”,难点就更多了:
看图吧,懒得废话了。
表征学习主要是研究如何提取一个行人的特征。主要有以下几种方法:
直观的对比可以看下面这张图:
全局表征学习:直接将行人图片送入卷积神经网络去提取特征,这对主干网络的精度要求很高。此外文章还着重介绍了注意力机制在这里的作用。
局部表征学习:将行人的图片进行分块,使用网络对每一块抽取特征,最后将所有局部特征结合起来。
辅助表征学习:在网络中加入一些辅助性的元素,比如可以加入一些描述行人外观视角的文字,或者加入一些Domain的描述,或者加入一张使用GAN网络生成的图片。这样做可以加强网络的精度。
基于视频的表征学习:对网络输入一系列的图片,对每个图片抽取特征,最后合成一个总特征。
此外,文章还着重讲述了网络结构设计的重要性。
现阶段的度量学习主要是设计不同的损失函数,以及如何设计训练网络的策略。
损失函数主要有:identity loss, Verification loss, triplet loss, OIM loss,前三个损失函数的示意图如下:
在训练策略方面,着重解决以下几个问题:
先来讲一下什么是排序(rank),在网络的预测阶段,需要对Gallery中的图片进行排序,排序越靠前的就是和Query越相似的,排序优化顾名思义就是优化排序这一阶段。
优化的主要方法有:re-ranking, rank-fusion...
这一部分主要讲述一些复杂情况下的reid,主要包括:
端到端的意思就是,根据原始的视频信息去进行reid,直接返回目标ID在视频中的位置,这也更加贴近reid真实的应用。
主要是如何进行聚类。
噪声主要是以下几个方面:
由于现在reid的数据集越来越多,越来越大,很多数据集不可能进行手工标注,所以很容易产生以上问题。文章这里就参数了如何解决这些问题。
本部分作者主要提出了一种新的衡量模型好坏的标准mINP,以及提出了一个新的baseline,可以用于单模态(single-modality)以及跨模态(cross-modality)下的reid。
另外,本部分还讨论了一些当下研究的热点问题,比如域自适应、部署等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。