赞
踩
目前可以将现有的基于深度学习的目标检测与识别算法大致分为以下三大类:
① 基于区域建议的目标检测与识别算法,如R-CNN, Fast-R-CNN, Faster-R-CNN;
② 基于回归的目标检测与识别算法,如YOLO, SSD;
③ 基于搜索的目标检测与识别算法,如基于视觉注意的AttentionNet,基于强化学习的算法.
目前, 目标识别主要有以下几个应用场景:
① 安全领域:指纹识别、人脸识别等,代表项目如Face++、依图科技、深醒科技等。
② 军事领域:地形勘察、飞行物识别等,代表项目全悉科技。
③ 交通领域:车牌号识别、无人驾驶、交通标志识别等,代表项目纵目科技、TuSimple(图森科技)、驭势科技等。
④ 医疗领域:心电图、B超、健康管理、营养学等,代表项目智影医疗、图玛深维等。
⑤ 生活领域:智能家居、购物、智能测肤等,代表项目Yi+、木薯科技、肌秘等。
1) 接收一个图像, 使用Selective Search选择大约2000个从上到下的类无关的候选区域(proposal)
2) 将提取出来的候选区域转换为统一大小的图片(拉升/压缩等方法), 使用CNN模型提取每一个候选区域的固定长度的特征.
3) 使用特定类别的线性SVM分类器对每一个候选区域进行分类.
4) Bounding Box回归.
1) 预训练. 预训练CNN(边界框标签不可用于该数据).
2) 特征领域的微调. 使用基于CNN的SGD的训练,对模型进行微调.在这里选择学习率为预训练的1/10, 保证微调不破坏初始化.
3) 将所有候选区域与真实框重叠(IoU)大于等于0.5的作为该框类的正例,其余的作为负例.再进行SVM分类.
------这个表明了训练过程是需要Grounding Truth(标定框)的, 是有监督的过程.
注意: 在预训练和微调中使用的CNN网络参数的共享,并且提取的特征数目为(类别N+背景1)个.
预测的过程和训练基本相同,不同的是:
1) 预测的过程没有初始给定的标定框(Grounding Truth).
2) Bounding Box回归.
其实简单来说, 预测的过程就是根据在训练过程中找到的CNN回归值与所要预测的Grounding Truth之间的关系, 反向推导Grounding Truth的位置.
1) R-CNN较之于传统方法的主要优势:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。