赞
踩
针对遮挡问题,现有的方法存在的问题有:
Hand-Craft Splitting(手工硬划分):粗糙的,并且存在背景干扰
Human Parsing(人体语义分割或姿态估计)依赖外部模型的性能,跨域导致精度下降
Attention(注意力机制)往往只关心最具有判别力的地方
本文提出基于transformer的方法,结构如下:
1.首先利用CNN模型得到特征图(H,W,D),展开为(H*W,D)按pixel feature计算self-attention,得到f(att),即使用encoder来做一个空间attention。
2.定义了一个可训练的部件原型向量(part prototypes)代表行人k个部分的局部原型特征,首先对部件原型向量自己做一个self-attention,得到p(att)
3.利用p(att)做query,f(att)做key和value,计算一个cross-attention,也就是decoder部分中的part-aware masks和weighted pooling。之后得到了f(part)
4.损失函数由三部分组成,第一部分是f(att)得到fg计算id和triplet loss;第二部分是为了使部件原型向量代表不同的部分,计算所有部件原型向量的相似度和为loss;第三部分对f(part)计算id和triplet loss。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。