赞
踩
OPenCV自3.3版本开始,加入了对深度学习网络的支持,即DNN模块,它支持主流的深度学习框架生成与到处模型的加载。
OpenCV的深度学习模块DNN,只提供预测的功能,不能使用DNN进行模型训练,但是它支持多种深度学习框架,比如说TensorFlow,Caffe,Torch和Darknet。
DNN的优点:
与常见的计算机视觉应用一样,再将数据加入到模型之前,需要对数据进行tranform
blobFromImage(image,
scalefactor=None,
size=None,
mean=None,
swapRB=None,
crop=None,
ddepth=None):
import cv2 from cv2 import dnn import numpy as np import matplotlib.pyplot as plt img = cv2.imread("data/8.jpg") img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB) inWidth = 256 inHeight = 256 outimg1 = cv2.dnn.blobFromImage(img, scalefactor=1.0 / 255, size=(inWidth, inHeight), mean=(0, 0, 0), swapRB=False, crop=False) outimg1 = np.transpose(outimg1[0], (1, 2, 0)) outimg2 = cv2.dnn.blobFromImage(img, scalefactor=1.0 / 255, size=(inWidth, inHeight), mean=(0, 0, 0), swapRB=False, crop=True) outimg2 = np.transpose(outimg2[0], (1, 2, 0)) imgs= [img,outimg1,outimg2] fig=plt.figure(figsize=[10, 10]) titles = ['origin','nocrop','crop'] for i in range(3): ax=fig.add_subplot(1,3,i+1) ax.axis("off") plt.title(titles[i]) ax.imshow(imgs[i])
还有一种批量的cv2.dnn.blobFromImages(),参数是一样的
根据给定的检测boxes和对应的scores进行NMS(非极大值抑制)处理。
NMS原理:我们在做目标检测类似应用时,目标检测算法会给图片上所有物体产生很多的候选框,但这些候选框可能有些会互相重叠,NMS作用就是只保留最优的框。我们目标检测每个框都会有一个置信度分数S。
NMS流程步骤:
NMSBoxes(bboxes,
scores,
score_threshold,
nms_threshold,
eta=None,
top_k=None)
作用:加载深度学习网络及其模型参数
原型:
readNet(model, config=None, framework=None)
参数:
对应于特定框架的API:
readNetFromCaffe(prototxt, caffeModel=None)
作用:加载采用Caffe的配置网络和训练的权重参数
readNetFromDarknet(cfgFile, darknetModel=None)
作用:加载采用Darknet的配置网络和训练的权重参数
readNetFromTensorflow(model, config=None)
作用:加载采用Tensorflow 的配置网络和训练的权重参数
参数:
作用:加载采用 Torch 的配置网络和训练的权重参数
参数:model: 采用 torch.save()函数保存的文件
步骤:
目前主流的框架为pytorch
这里就只详细说明一下,加载pytorch和Darknet所用的配置文件吧
在pytorch中有三种保存模型方式:
经常会看到后缀名为.pt, .pth, .pkl的pytorch模型文件,其实它们并不是在格式上有区别,只是后缀不同而已(仅此而已),在用torch.save()函数保存模型文件时,各人有不同的喜好,有些人喜欢用.pt后缀,有些人喜欢用.pth或.pkl.用相同的torch.save()语句保存出来的模型文件没有什么不同。
注意模型文件的格式
#1
torch.save(model,'model.pt')
#2
torch.save(model.state_dict(),'model.pt')
在cv2.dnn.readNetFromTorch,我们加载的是后者,即模型的参数。
darknet框架是针对yolo模型的,以yolov3做coco目标检测模型为例。
Darknet模型有这样几个文件:
DNN加载模型
model = cv2.dnn.readNetFromDarknet('yolov3.cfg','yolov3.weights')
# detect.py import cv2 import numpy as np import os import time def yolo_detect(pathIn='', pathOut=None, label_path='./cfg/coco.names', config_path='./cfg/yolov3.cfg', weights_path='./cfg/yolov3.weights', confidence_thre=0.5, nms_thre=0.3, jpg_quality=80): ''' pathIn:原始图片的路径 pathOut:结果图片的路径 label_path:类别标签文件的路径 config_path:模型配置文件的路径 weights_path:模型权重文件的路径 confidence_thre:0-1,置信度(概率/打分)阈值,即保留概率大于这个值的边界框,默认为0.5 nms_thre:非极大值抑制的阈值,默认为0.3 jpg_quality:设定输出图片的质量,范围为0到100,默认为80,越大质量越好 ''' # 加载类别标签文件 LABELS = open(label_path).read().strip().split("\n") nclass = len(LABELS) # 为每个类别的边界框随机匹配相应颜色 np.random.seed(42) COLORS = np.random.randint(0, 255, size=(nclass, 3), dtype='uint8') # 载入图片并获取其维度 base_path = os.path.basename(pathIn) img = cv2.imread(pathIn) (H, W) = img.shape[:2] # 加载模型配置和权重文件 print('从硬盘加载YOLO......') net = cv2.dnn.readNetFromDarknet(config_path, weights_path) # 获取YOLO输出层的名字 ln = net.getLayerNames() ln = [ln[i[0] - 1] for i in net.getUnconnectedOutLayers()] # 将图片构建成一个blob,设置图片尺寸,然后执行一次 # YOLO前馈网络计算,最终获取边界框和相应概率 blob = cv2.dnn.blobFromImage(img, 1 / 255.0, (416, 416), swapRB=True, crop=False) net.setInput(blob) start = time.time() layerOutputs = net.forward(ln) end = time.time() # 显示预测所花费时间 print('YOLO模型花费 {:.2f} 秒来预测一张图片'.format(end - start)) # 初始化边界框,置信度(概率)以及类别 boxes = [] confidences = [] classIDs = [] # 迭代每个输出层,总共三个 for output in layerOutputs: # 迭代每个检测 for detection in output: # 提取类别ID和置信度 scores = detection[5:] classID = np.argmax(scores) confidence = scores[classID] # 只保留置信度大于某值的边界框 if confidence > confidence_thre: # 将边界框的坐标还原至与原图片相匹配,记住YOLO返回的是 # 边界框的中心坐标以及边界框的宽度和高度 box = detection[0:4] * np.array([W, H, W, H]) (centerX, centerY, width, height) = box.astype("int") # 计算边界框的左上角位置 x = int(centerX - (width / 2)) y = int(centerY - (height / 2)) # 更新边界框,置信度(概率)以及类别 boxes.append([x, y, int(width), int(height)]) confidences.append(float(confidence)) classIDs.append(classID) # 使用非极大值抑制方法抑制弱、重叠边界框 idxs = cv2.dnn.NMSBoxes(boxes, confidences, confidence_thre, nms_thre) # 确保至少一个边界框 if len(idxs) > 0: # 迭代每个边界框 for i in idxs.flatten(): # 提取边界框的坐标 (x, y) = (boxes[i][0], boxes[i][1]) (w, h) = (boxes[i][2], boxes[i][3]) # 绘制边界框以及在左上角添加类别标签和置信度 color = [int(c) for c in COLORS[classIDs[i]]] cv2.rectangle(img, (x, y), (x + w, y + h), color, 2) text = '{}: {:.3f}'.format(LABELS[classIDs[i]], confidences[i]) (text_w, text_h), baseline = cv2.getTextSize(text, cv2.FONT_HERSHEY_SIMPLEX, 0.5, 2) cv2.rectangle(img, (x, y - text_h - baseline), (x + text_w, y), color, -1) cv2.putText(img, text, (x, y - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 0), 2) # 输出结果图片 if pathOut is None: cv2.imwrite('with_box_' + base_path, img, [int(cv2.IMWRITE_JPEG_QUALITY), jpg_quality]) else: cv2.imwrite(pathOut, img, [int(cv2.IMWRITE_JPEG_QUALITY), jpg_quality])
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。