赞
踩
1、首先整个模型一共是有三个网络,按顺序依次是P-net,R-net,O-net
2、在传入P-net之前,我们会对图片进行预处理,主要是将一张图片转换成多个尺寸,然后将多个尺寸都传入到P-net
中,这样可以适应不同大小的人脸检测
3、P-net
将一张图片分成了h/2*w/2
个网格,输出有两部分,会被放入同一个列表中:[(1,h/2,w/2,2),(1,h/2,w/2,4)]
,前一个是h/2*w/2
个(不是人脸的概率,是人脸的概率)
这样的,第二部分是h/2*w/2
个框的左上角和右下角两个位置的偏移量,每个点有(dx,dy)
两个偏移量,所以两个点一共四个值,也即(dx1,dy1,dx2,dy2)
4、P-net
出来之后,会再经过一个后处理模块,主要作用是:根据设置的阈值筛选掉一些框,然后根据网格在(h/2*w/2)
个网格中的位置以及预测的偏移量,由一个公式计算出在原图中的实际位置;还会根据之前预测的是人脸的概率得出score
,这样最后的输出就是(n_p,x1,y1,x2,y2,score)
,这里的n代表框的个数,是小于h/2*w/2
的,因为后处理是设置了阈值,会去掉一部分框
5、同理,我们按照P-net<
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。