detectron2训练自己的数据集_YoloV4训练自己的自定义数据集

作者：煮酒与君饮 | 2024-07-24 13:41:24

踩

detectron2 steps什么意思

YoloV4训练自定义的数据集模型

本文由林大佬原创，转载请注明出处，来自腾讯、阿里等一线AI算法工程师组成的QQ交流群欢迎你的加入: 1037662480

最近YoloV4成了新的吊打一切的目标检测算法，考虑速度和精度V4的全方位能力甚至超越了EfficientDet，根据本人实测的经验，关于v4我们可以形成一个这样的总结：

精度几乎不用怀疑，很强，比EfficientDet靠加大图片分辨率提高检测能力的模型要好；
显存比efficientdet节省很多，efficientdetD4 900的分辨率笔记本上几乎无法跑，而同样的CSPDarknet的YoloV4可以在2G显存的笔记本上跑；
速度很快，这个速度很快如何定义呢？EfficientDet的FLOPs是比较少，但是速度并不一定快，关于FLOPs和速度的区别大家可以看看一些比较的文章，据我所知现在社区已经有了tensorRT加速的YoloV4，速度在1080Ti上可以跑到20ms，很快了。

最后可以说V4的整体素质真的强，几乎可以“吊打一切”。但其内部的原理其实很简单，整个结构和yolov3没有本质的区别。今天这篇文章就是教大家如何在darknet框架下训练自己的yolov4模型，同时实现推理和预测。在当下其他的框架还没有完整的比较好的复现的情况下，使用darknet训练模型并部署不失为一个很好的方法，现在很多yolov3的pytorch parser实际上可以读取darknet的weights转换成pytorch的weights。

darknet yolov4训练自定义数据集

自定义数据集的训练要求也很简单。先来看看训练的command，假设你已经编译好了darknet：

./build_release/darknet detector train data/my_dataset.data cfg/yolov4-my_dataset.cfg backup/yolov4-my_dataset.weights -map

在data里面提供的就是图片的路径，每一行就是一张图片，cfg里面就是网络结构的定义。那么我们首先要准备的就是这两个文件了，接着就可以开始训练（请注意，如果你不是resume训练，那么可以从yolov4官方repo里面下载对应的conv73的weights进行开始训练）。

假设你的数据集是VOC格式的，我们的步骤主要分为两个:

在scripts.py下运行一个voc_label.py的脚本（如果你的没有分0712，可以用下面提供的），这个脚本会生成对应的labels（里面包含的是txt格式的yolo标注），以及train.txt也就是上面的训练图片目录；
运行上面的命令开始训练。

听起来很简单吧？其实也不难，最关键的是darknet的代码看起来十分的稳健，只要你按照这些步骤来，就不会有错，当然，似乎还漏掉了最后一步，修改yolov4的网络结构，因为这和你的类别数据有关。但这个我们放到最后，因为有点复杂。

先来准备你的数据吧。上面说了分为两部，但其实你需要先把你的VOC格式标注的数据软连接到 data下面。这样在原始darknet的目录下，你就有了一个data/VOC2018的文件夹，这里面存放的是你自己标注的VOC格式的数据。

然后运行这个脚本，生成我们需要的东西：


import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join
import sys
sets=[('2018', 'train'), ('2018', 'val')]
classes = ["a", "b", "c", "d"]
# soft link your VOC2018 under here
root_dir = sys.argv[1]
def convert(size, box):
    dw = 1./(size[0])
    dh = 1./(size[1])
    x = (box[0] + box[1])/2.0 - 1
    y = (box[2] + box[3])/2.0 - 1
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x*dw
    w = w*dw
    y = y*dh
    h = h*dh
    return (x,y,w,h)
def convert_annotation(year, image_id):
    in_file = open(os.path.join(root_dir, 'VOC%s/Annotations/%s.xml'%(year, image_id)))
    out_file = open(os.path.join(root_dir, 'VOC%s/labels/%s.txt'%(year, image_id)), 'w')
    tree=ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)
    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult)==1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
        bb = convert((w,h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + 'n')
wd = getcwd()
for year, image_set in sets:
    labels_target = os.path.join(root_dir, 'VOC%s/labels/'%(year))
    print('labels dir to save: {}'.format(labels_target))
    if not os.path.exists(labels_target):
        os.makedirs(labels_target)
    image_ids = open(os.path.join(root_dir, 'VOC{}/ImageSets/Main/{}.txt'.format(year, image_set))).read().strip().split()
    list_file = open(os.path.join(root_dir, '%s_%s.txt'%(year, image_set)), 'w')
    for image_id in image_ids:
        img_f = os.path.join(root_dir, 'VOC%s/JPEGImages/%s.jpgn'%(year, image_id))
        list_file.write(os.path.abspath(img_f))
        convert_annotation(year, image_id)
    list_file.close()
print('done.')

然后你在scripts的目录下运行一下：

python3 voc_label_aabb.py ../data/VOC2018

这时候，你需要的东西就会在data下面生成。你需要的data文件就是这样的：


classes= 4
train  = data/2018_train.txt
valid  = data/2018_val.txt
names = data/aabb.names
backup = backup/

这些你都有了，4是你自己的类别数目。

最后我们说一下如何修改cfg网络结构。

主要修改的点如下，按照顺序来：

[net]开头这部分：
# 2000*num_classes
max_batches = 8000
policy=steps
steps=6400,7200
你需要按照你的类别数目，修改这个max_batches, 通常就是2000x你的类别数。然后steps就是上面数字的80%和90%的分界点。
每个yolo layer前的最后一个conv：
[convolutional]
size=1
stride=1
pad=1
# (80+5)x3=255 (4+5)x3=60
filters=27
activation=linear
修改一下filters，它的数目为：(num_classes + 5)x3
最后就是yolo layer里面的classes：
[yolo]
mask = 6,7,8
anchors = 12, 16, 19, 36, 40, 28, 36, 75, 76, 55, 72, 146, 142, 110, 192, 243, 459, 401
classes=4

其他的不需要修改。

训练结果

yolov4的训练过程非常快，到大概1000个iter就差不多有一个可以用的结果了。自定义的数据集训练出来也很好。

总结一下：

Yolov4是真的强，小物体检测很稳定，同时置信度很高，这比一些anchor-free的算法要好很多。相比于efficientdet，它的置信度其实是很低的，在一些对把握度要求很高的场合，yolov4更具有优越性。

彩蛋

我们在GTX1080上测试通过TensorRT加速的YoloV4的模型，在标准版本的输入下，采用fp32推理，其速度可以达到20ms，速度高达48fps。这对一个高精度检测算法来说，已经很不错了。

如果你对自定义数据集训练yolov4有任何疑问，欢迎来社区交流：

http://t.manaai.cn

如果你需要TensorRT加速的YoloV4，欢迎假如QQ群与我们交流。

欢迎广大AI爱好者加入我们的AI学习者群，与强者同行，学习最精尖的技术：1037662480 (QQGroup)

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/874986