当前位置:   article > 正文

目标检测实战:4种YOLO目标检测的C++和Python两种版本实现_yolo c++

yolo c++

本文作者使用C++编写一套基于OpenCV的YOLO目标检测,包含了经典的YOLOv3,YOLOv4,Yolo-Fastest和YOLObile这4种YOLO目标检测的实现。附代码详解。 >>

接下来,将使用C++编写一套基于OpenCV的YOLO目标检测,这个程序里包含了经典YOLOv3,YOLOv4,Yolo-Fastest和YOLObile这4种YOLO目标检测的实现。

1. 实现思路

用面向对象的思想定义一个类,类的构造函数会调用opencv的dnn模块读取输入的.cfg和.weights文件来初始化YOLO网络,类有一个成员函数detect对输入的图像做目标检测,主要包括前向推理forward和后处理postprocess。这样就把YOLO目标检测模型封装成了一个类。最后在主函数main里设置一个参数可以选择任意一种YOLO做目标检测,读取一幅图片,调用YOLO类里的detect函数执行目标检测,画出图片中的物体的类别和矩形框。

2. 实现步骤

定义类的构造函数和成员函数和成员变量,如下所示。其中confThreshold是类别置信度阈值,nmsThreshold是重叠率阈值,inpHeight和inpWidth使输入图片的高和宽,netname是yolo模型名称,classes是存储类别的数组,本套程序是在COCO数据集上训练出来的模型,因此它存储有80个类别。net是使用opencv的dnn模块读取配置文件和权重文件后返回的深度学习模型,postprocess是后处理函数,drawPred是在检测到图片里的目标后,画矩形框和类别名。

  1. class YOLO
  2. {
  3. public:
  4. YOLO(Net_config config);
  5. void detect(Mat& frame);
  6. private:
  7. float confThreshold;
  8. float nmsThreshold;
  9. int inpWidth;
  10. int inpHeight;
  11. char netname[20];
  12. vector<string> classes;
  13. Net net;
  14. void postprocess(Mat& frame, const vector<Mat>& outs);
  15. void drawPred(int classId, float conf, int left, int top, int right, int bottom, Mat& frame);
  16. };

接下来,定义一个结构体和结构体数组,如下所示。结构体里包含了类别置信度阈值,重叠率阈值,模型名称,配置文件和权重文件的路径,存储所有类别信息的文档的路径,输入图片的高和宽。然后在结构体数组里,包含了四种YOLO模型的参数集合。

  1. struct Net_config
  2. {
  3. float confThreshold; // Confidence threshold
  4. float nmsThreshold; // Non-maximum suppression threshold
  5. int inpWidth; // Width of network's input image
  6. int inpHeight; // Height of network's input image
  7. string classesFile;
  8. string modelConfiguration;
  9. string modelWeights;
  10. string netname;
  11. };
  12. Net_config yolo_nets[4] = {
  13. {0.5, 0.4, 416, 416,"coco.names", "yolov3/yolov3.cfg", "yolov3/yolov3.weights", "yolov3"},
  14. {0.5, 0.4, 608, 608,"coco.names", "yolov4/yolov4.cfg", "yolov4/yolov4.weights", "yolov4"},
  15. {0.5, 0.4, 320, 320,"coco.names", "yolo-fastest/yolo-fastest-xl.cfg", "yolo-fastest/yolo-fastest-xl.weights", "yolo-fastest"},
  16. {0.5, 0.4, 320, 320,"coco.names", "yolobile/csdarknet53s-panet-spp.cfg", "yolobile/yolobile.weights", "yolobile"}
  17. };

接下来是YOLO类的构造函数,如下所示,它会根据输入的结构体Net_config,来初始化成员变量,这其中就包括opencv读取配置文件和权重文件后返回的深度学习模型。

  1. YOLO::YOLO(Net_config config)
  2. {
  3. cout << "Net use " << config.netname << endl;
  4. this->confThreshold = config.confThreshold;
  5. this->nmsThreshold = config.nmsThreshold;
  6. this->inpWidth = config.inpWidth;
  7. this->inpHeight = config.inpHeight;
  8. strcpy_s(this->netname, config.netname.c_str());
  9. ifstream ifs(config.classesFile.c_str());
  10. string line;
  11. while (getline(ifs, line)) this->classes.push_back(line);
  12. this->net = readNetFromDarknet(config.modelConfiguration, config.modelWeights);
  13. this->net.setPreferableBackend(DNN_BACKEND_OPENCV);
  14. this->net.setPreferableTarget(DNN_TARGET_CPU);
  15. }

接下来的关键的detect函数,在这个函数里,首先使用blobFromImage对输入图像做预处理,然后是做forward前向推理和postprocess后处理。

  1. void YOLO::detect(Mat& frame)
  2. {
  3. Mat blob;
  4. blobFromImage(frame, blob, 1 / 255.0, Size(this->inpWidth, this->inpHeight), Scalar(0, 0, 0), true, false);
  5. this->net.setInput(blob);
  6. vector<Mat> outs;
  7. this->net.forward(outs, this->net.getUnconnectedOutLayersNames());
  8. this->postprocess(frame, outs);
  9. vector<double> layersTimes;
  10. double freq = getTickFrequency() / 1000;
  11. double t = net.getPerfProfile(layersTimes) / freq;
  12. string label = format("%s Inference time : %.2f ms", this->netname, t);
  13. putText(frame, label, Point(0, 30), FONT_HERSHEY_SIMPLEX, 1, Scalar(0, 0, 255), 2);
  14. //imwrite(format("%s_out.jpg", this->netname), frame);
  15. }

postprocess后处理函数的代码实现如下,在这个函数里,for循环遍历所有的候选框outs,计算出每个候选框的最大类别分数值,也就是真实类别分数值,如果真实类别分数值大于confThreshold,那么就对这个候选框做decode计算出矩形框左上角顶点的x, y,高和宽的值,然后把真实类别分数值,真实类别索引id和矩形框左上角顶点的x, y,高和宽的值分别添加到confidences,classIds和boxes这三个vector里。在for循环结束后,执行NMS,去掉重叠率大于nmsThreshold的候选框,剩下的检测框就调用drawPred在输入图片里画矩形框和类别名称以及分数值。

  1. void YOLO::postprocess(Mat& frame, const vector<Mat>& outs) // Remove the bounding boxes with low confidence using non-maxima suppression
  2. {
  3. vector<int> classIds;
  4. vector<float> confidences;
  5. vector<Rect> boxes;
  6. for (size_t i = 0; i < outs.size(); ++i)
  7. {
  8. // Scan through all the bounding boxes output from the network and keep only the
  9. // ones with high confidence scores. Assign the box's class label as the class
  10. // with the highest score for the box.
  11. float* data = (float*)outs[i].data;
  12. for (int j = 0; j < outs[i].rows; ++j, data += outs[i].cols)
  13. {
  14. Mat scores = outs[i].row(j).colRange(5, outs[i].cols);
  15. Point classIdPoint;
  16. double confidence;
  17. // Get the value and location of the maximum score
  18. minMaxLoc(scores, 0, &confidence, 0, &classIdPoint);
  19. if (confidence > this->confThreshold)
  20. {
  21. int centerX = (int)(data[0] * frame.cols);
  22. int centerY = (int)(data[1] * frame.rows);
  23. int width = (int)(data[2] * frame.cols);
  24. int height = (int)(data[3] * frame.rows);
  25. int left = centerX - width / 2;
  26. int top = centerY - height / 2;
  27. classIds.push_back(classIdPoint.x);
  28. confidences.push_back((float)confidence);
  29. boxes.push_back(Rect(left, top, width, height));
  30. }
  31. }
  32. }
  33. // Perform non maximum suppression to eliminate redundant overlapping boxes with
  34. // lower confidences
  35. vector<int> indices;
  36. NMSBoxes(boxes, confidences, this->confThreshold, this->nmsThreshold, indices);
  37. for (size_t i = 0; i < indices.size(); ++i)
  38. {
  39. int idx = indices[i];
  40. Rect box = boxes[idx];
  41. this->drawPred(classIds[idx], confidences[idx], box.x, box.y,
  42. box.x + box.width, box.y + box.height, frame);
  43. }
  44. }
  45. void YOLO::drawPred(int classId, float conf, int left, int top, int right, int bottom, Mat& frame) // Draw the predicted bounding box
  46. {
  47. //Draw a rectangle displaying the bounding box
  48. rectangle(frame, Point(left, top), Point(right, bottom), Scalar(0, 0, 255), 3);
  49. //Get the label for the class name and its confidence
  50. string label = format("%.2f", conf);
  51. if (!this->classes.empty())
  52. {
  53. CV_Assert(classId < (int)this->classes.size());
  54. label = this->classes[classId] + ":" + label;
  55. }
  56. //Display the label at the top of the bounding box
  57. int baseLine;
  58. Size labelSize = getTextSize(label, FONT_HERSHEY_SIMPLEX, 0.5, 1, &baseLine);
  59. top = max(top, labelSize.height);
  60. //rectangle(frame, Point(left, top - int(1.5 * labelSize.height)), Point(left + int(1.5 * labelSize.width), top + baseLine), Scalar(0, 255, 0), FILLED);
  61. putText(frame, label, Point(left, top), FONT_HERSHEY_SIMPLEX, 0.75, Scalar(0, 255, 0), 1);
  62. }

最后是主函数main,代码实现如下。在主函数里的第一行代码,输入参数yolo_nets[2]表示选择了四种YOLO模型里的第三个yolo-fastest,使用者可以自由设置这个参数,从而能自由选择YOLO模型。接下来是定义输入图片的路径,opencv读取图片,传入到yolo_model的detect函数里做目标检测,最后在窗口显示检测结果。

  1. int main()
  2. {
  3. YOLO yolo_model(yolo_nets[2]);
  4. string imgpath = "person.jpg";
  5. Mat srcimg = imread(imgpath);
  6. yolo_model.detect(srcimg);
  7. static const string kWinName = "Deep learning object detection in OpenCV";
  8. namedWindow(kWinName, WINDOW_NORMAL);
  9. imshow(kWinName, srcimg);
  10. waitKey(0);
  11. destroyAllWindows();
  12. }

在编写并调试完程序后,曾多次运行程序来比较这4种YOLO目标检测网络在一幅图片上的运行耗时。运行程序的环境是win10-cpu,VS2019+opencv4.4.0,这4种YOLO目标检测网络在同一幅图片上的运行耗时的结果如下:

 

 

 

 可以看到Yolo-Fastest运行速度最快,YOLObile号称是实时的,但是从结果看并不如此。并且查看它们的模型文件,可以看到Yolo-Fastest的是最小的。如果在ubuntu-gpu环境里运行,它还会更快。

整个程序的运行不依赖任何深度学习框架,只需要依赖OpenCV4这个库就可以运行整个程序,做到了YOLO目标检测的极简主义,这个在硬件平台部署时是很有意义的。建议在ubuntu系统里运行这套程序,上面展示的是在win10-cpu机器上的运行结果,而在ubuntu系统里运行,一张图片的前向推理耗时只有win10-cpu机器上的十分之一。而且把这套程序发布在github上,这套程序包含了C++和Python两种版本的实现,地址是 https://github.com/hpc203/yolov34-cpp-opencv-dnn

此外,还编写了使用opencv实现yolov5目标检测,程序依然是包含了C++和Python两种版本的实现,地址是https://github.com/hpc203/yolov5-dnn-cpp-python 和 https://github.com/hpc203/yolov5-dnn-cpp-python-v2

考虑到yolov5的模型文件是在pytorch框架里从.pt文件转换生成的.onnx文件,而之前的yolov3,v4都是在darknet框架里生成的.cfg和.weights文件,还有yolov5的后处理计算与之前的yolov3,v4有所不同,因此没有把yolov5添加到上面的4种YOLO目标检测程序里。

版权声明:本文为奥比中光3D视觉开发者社区特约作者授权原创发布,未经授权不得转载,本文仅做学术分享,版权归原作者所有,若涉及侵权内容请联系删文。

3D视觉开发者社区是由奥比中光给所有开发者打造的分享与交流平台,旨在将3D视觉技术开放给开发者。平台为开发者提供3D视觉领域免费课程、奥比中光独家资源与专业技术支持。

加入【3D视觉开发者社区】学习行业前沿知识,赋能开发者技能提升!
加入【3D视觉AI开放平台】体验AI算法能力,助力开发者视觉算法落地!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/128671
推荐阅读
相关标签
  

闽ICP备14008679号