当前位置:   article > 正文

使用TensorRT对YOLOv8模型进行加速推理_tensorrt yolov8

tensorrt yolov8

      这里使用GitHub上shouxieai的 infer框架 对YOLOv8模型进行加速推理,操作过程如下所示:

      1.配置环境,依赖项,包括:

      (1).CUDA: 11.8

      (2).cuDNN: 8.7.0

      (3).TensorRT: 8.5.3.1

      (4).ONNX: 1.16.0

      (5).OpenCV: 4.10.0

      2.clone infer代码:https://github.com/shouxieai/infer

      3.使用 https://blog.csdn.net/fengbingchun/article/details/140691177 中采用的数据集生成best.onnx,训练代码如下所示:

  1. import argparse
  2. import colorama
  3. from ultralytics import YOLO
  4. import torch
  5. def parse_args():
  6. parser = argparse.ArgumentParser(description="YOLOv8 train")
  7. parser.add_argument("--yaml", required=True, type=str, help="yaml file")
  8. parser.add_argument("--epochs", required=True, type=int, help="number of training")
  9. parser.add_argument("--task", required=True, type=str, choices=["detect", "segment"], help="specify what kind of task")
  10. args = parser.parse_args()
  11. return args
  12. def train(task, yaml, epochs):
  13. if task == "detect":
  14. model = YOLO("yolov8n.pt") # load a pretrained model
  15. elif task == "segment":
  16. model = YOLO("yolov8n-seg.pt") # load a pretrained model
  17. else:
  18. print(colorama.Fore.RED + "Error: unsupported task:", task)
  19. raise
  20. results = model.train(data=yaml, epochs=epochs, imgsz=640) # train the model
  21. metrics = model.val() # It'll automatically evaluate the data you trained, no arguments needed, dataset and settings remembered
  22. # model.export(format="onnx") #, dynamic=True) # export the model, cannot specify dynamic=True, opencv does not support
  23. model.export(format="onnx", opset=12, simplify=True, dynamic=False, imgsz=640)
  24. model.export(format="torchscript") # libtorch
  25. model.export(format="engine", imgsz=640, dynamic=False, verbose=False, batch=1, workspace=2) # tensorrt fp32
  26. # model.export(format="engine", imgsz=640, dynamic=True, verbose=True, batch=4, workspace=2, half=True) # tensorrt fp16
  27. # model.export(format="engine", imgsz=640, dynamic=True, verbose=True, batch=4, workspace=2, int8=True, data=yaml) # tensorrt int8
  28. if __name__ == "__main__":
  29. # python test_yolov8_train.py --yaml datasets/melon_new_detect/melon_new_detect.yaml --epochs 1000 --task detect
  30. colorama.init()
  31. args = parse_args()
  32. if torch.cuda.is_available():
  33. print("Runging on GPU")
  34. else:
  35. print("Runting on CPU")
  36. train(args.task, args.yaml, args.epochs)
  37. print(colorama.Fore.GREEN + "====== execution completed ======")

      4.将best.onnx文件通过infer中的v8trans.py转换为best.transd.onnx,执行如下命令:增加Transpose层,YOLOv5不需要

python v8trans.py best.onnx

      注:yolov8 onnx的输出为NHW,而inter框架的输出只支持NWH,因此需要在原始onnx的输出之前添加一个Transpose节点

      5.从 https://docs.nvidia.com/deeplearning/cudnn/archives/cudnn-870/install-guide/index.html#install-zlib-windows 下载zlib123dllx64.zip,解压缩将其中的zlibwapi.dll拷贝到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin目录下

      6.通过TensorRT中的trtexec.exe将best.transd.onnx转换为best.transd.engine,分别执行如下命令:

  1. trtexec.exe --onnx=best.transd.onnx --saveEngine=best.transd.fp32.engine
  2. trtexec.exe --onnx=best.transd.onnx --fp16 --saveEngine=best.transd.fp16.engine
  3. trtexec.exe --onnx=best.transd.onnx --int8 --saveEngine=best.transd.int8.engine

      :产生的best.transd.fp32.engine和best.transd.fp16.engine大小类似,推理耗时和准确度也类似;best.transd.int8.engine大小约是best.transd.fp32.engine的四分之一,推理耗时也小,但是准确度非常低

      7.测试代码TensorRT_infer.cpp如下:工程见:TensorRT_Infer

  1. #include <iostream>
  2. #include <filesystem>
  3. #include <vector>
  4. #include <fstream>
  5. #include <sstream>
  6. #include <random>
  7. #include <map>
  8. #include <memory>
  9. #include <chrono>
  10. #include <string>
  11. #include <algorithm>
  12. #include <opencv2/opencv.hpp>
  13. #include "yolo.hpp"
  14. namespace {
  15. constexpr float confidence_threshold{ 0.45f }; // confidence threshold
  16. constexpr float nms_threshold{ 0.50f }; // nms threshold
  17. constexpr char* engine_file{ "../../../data/best.transd.fp32.engine" };
  18. constexpr char* images_dir{ "../../../data/images/predict" };
  19. constexpr char* result_dir{ "../../../data/result" };
  20. constexpr char* classes_file{ "../../../data/images/labels.txt" };
  21. std::vector<std::string> parse_classes_file(const char* name)
  22. {
  23. std::vector<std::string> classes;
  24. std::ifstream file(name);
  25. if (!file.is_open()) {
  26. std::cerr << "Error: fail to open classes file: " << name << std::endl;
  27. return classes;
  28. }
  29. std::string line;
  30. while (std::getline(file, line)) {
  31. auto pos = line.find_first_of(" ");
  32. classes.emplace_back(line.substr(0, pos));
  33. }
  34. file.close();
  35. return classes;
  36. }
  37. auto get_dir_images(const char* name)
  38. {
  39. std::map<std::string, std::string> images; // image name, image path + image name
  40. for (auto const& dir_entry : std::filesystem::directory_iterator(name)) {
  41. if (dir_entry.is_regular_file())
  42. images[dir_entry.path().filename().string()] = dir_entry.path().string();
  43. }
  44. return images;
  45. }
  46. auto get_random_color(int labels_number)
  47. {
  48. std::random_device rd;
  49. std::mt19937 gen(rd());
  50. std::uniform_int_distribution<int> dis(100, 255);
  51. std::vector<cv::Scalar> colors;
  52. for (auto i = 0; i < labels_number; ++i) {
  53. colors.emplace_back(cv::Scalar(dis(gen), dis(gen), dis(gen)));
  54. }
  55. return colors;
  56. }
  57. } // namespace
  58. int main()
  59. {
  60. namespace fs = std::filesystem;
  61. if (!fs::exists(result_dir)) {
  62. fs::create_directories(result_dir);
  63. }
  64. auto classes = parse_classes_file(classes_file);
  65. if (classes.size() == 0) {
  66. std::cerr << "Error: fail to parse classes file: " << classes_file << std::endl;
  67. return -1;
  68. }
  69. std::cout << "classes: ";
  70. for (const auto& val : classes) {
  71. std::cout << val << " ";
  72. }
  73. std::cout << std::endl;
  74. auto colors = get_random_color(classes.size());
  75. auto model = yolo::load(engine_file, yolo::Type::V8, confidence_threshold, nms_threshold);
  76. for (auto i = 0; i < 10; ++i) {
  77. std::cout << "i: " << i << std::endl;
  78. for (const auto& [key, val] : get_dir_images(images_dir)) {
  79. cv::Mat frame = cv::imread(val, cv::IMREAD_COLOR);
  80. if (frame.empty()) {
  81. std::cerr << "Warning: unable to load image: " << val << std::endl;
  82. continue;
  83. }
  84. auto tstart = std::chrono::high_resolution_clock::now();
  85. auto objs = model->forward(yolo::Image(frame.data, frame.cols, frame.rows));
  86. auto tend = std::chrono::high_resolution_clock::now();
  87. std::cout << "elapsed millisenconds: " << std::chrono::duration_cast<std::chrono::milliseconds>(tend - tstart).count() << " ms" << std::endl;
  88. for (const auto& obj : objs) {
  89. cv::rectangle(frame, cv::Point(obj.left, obj.top), cv::Point(obj.right, obj.bottom), colors[obj.class_label], 2);
  90. std::string class_string = classes[obj.class_label] + ' ' + std::to_string(obj.confidence).substr(0, 4);
  91. cv::Size text_size = cv::getTextSize(class_string, cv::FONT_HERSHEY_DUPLEX, 1, 2, 0);
  92. cv::Rect text_box(obj.left, obj.top - 40, text_size.width + 10, text_size.height + 20);
  93. cv::rectangle(frame, text_box, colors[obj.class_label], cv::FILLED);
  94. cv::putText(frame, class_string, cv::Point(obj.left + 5, obj.top - 10), cv::FONT_HERSHEY_DUPLEX, 1, cv::Scalar(0, 0, 0), 2, 0);
  95. }
  96. std::string path(result_dir);
  97. path += "/" + key;
  98. cv::imwrite(path, frame);
  99. }
  100. }
  101. std::cout << "test finish" << std::endl;
  102. return 0;
  103. }

      执行结果如下图所示:

      检测结果如下图所示:

      trtexec.exe是一个快速使用TensorRT的工具,无需开发自己的应用程序。此工具有三个主要用途:

      (1).根据随机或用户提供的输入数据对网络进行基准测试。

      (2).从模型生成序列化引擎(engine)。

      (3).从构建器生成序列化时序缓存(serialized timing cache)。

      trtexec.exe常用flags说明:

      1.构建阶段flags

      (1).--onnx=<model>:指定输入ONNX模型。如果输入模型为ONNX格式,使用--minShapes、--optShapes和--maxShapes标志来控制输入shapes的范围(包括batch大小)。

      (2).--minShapes=<shapes>, --optShapes=<shapes>, and --maxShapes=<shapes>:指定用于构建engine的输入shapes的范围。仅当输入模型为ONNX格式时才需要。

      (3).–-memPoolSize=<pool_spec>:指定策略允许使用的workspace的最大大小。

      (4).--saveEngine=<file>:指定保存engine的路径。

      (5).--fp16, --bf16, --int8, --fp8, --noTF32, and --best:指定network-level精度。

      (6).--stronglyTyped:创建strongly typed网络。

      (7).--sparsity=[disable|enable|force]:指定是否使用支持结构化稀疏性(structured sparsity)的策略。

      (8).--noCompilationCache:禁用构建中的编译缓存(默认是启用编译缓存)。

      (9).--verbose:开启详细日志。

      (10).--skipInference:构建并保存engine而不运行推理。

      (11).--dumpLayerInfo, --exportLayerInfo=<file>:打印/保存engine的layer信息。

      (12).--precisionConstraints=spec:控制精度约束设置。指定的值可为:none、prefer、obey。

      (13).--layerPrecisions=spec:控制每层精度约束。仅当precisionConstraints设置为obey或prefer时才有效。规范从左到右读取,后面的会覆盖前面的。"*"可用作layerName,以指定所有未指定层的默认精度。

      如:--layerPrecisions=*:fp16,layer_1:fp32 将除layer_1之外的所有层的精度设置为FP16,而layer_1的精度将设置为FP32。

      (14).--layerOutputTypes=spec:控制每层输出类型约束。仅当precisionConstraints设置为obey或prefer时才有效。规范从左到右读取,后面的会覆盖前面的。"*"可用作layerName,以指定所有未指定层的默认精度。

      (15).--versionCompatible, --vc:为engine构建和推理启用版本兼容模式。

      (16).--tempdir=<dir>:覆盖TensorRT在创建临时文件时将使用的默认临时目录。

      2.推理阶段flags

      (1).--loadEngine=<file>:从序列化计划文件加载engine,而不是从输入ONNX模型构建它。如果输入模型是ONNX格式或者engine是使用明确的batch dimension构建的,则改用--shapes。

      (2).--shapes=<shapes>:指定用于运行推理的输入shapes。

      (3).--loadInputs=<specs>:从文件加载输入值。默认生成随机输入。

      (4).--noDataTransfers:关闭host to device和device to host的数据传输。

      (5).--verbose:开启详细日志。

      (6).--dumpProfile, --exportProfile=<file>:打印/保存每层性能概况。

      (7).--dumpLayerInfo, --exportLayerInfo=<file>:打印engine的层信息。

      GitHubhttps://github.com/fengbingchun/NN_Test

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/1013289
推荐阅读
相关标签
  

闽ICP备14008679号