当前位置:   article > 正文

解决RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors...CUDA_LAUNCH_BLOCKING=1

runtimeerror: cuda error: device-side assert triggered cuda kernel errors mi

完整报错

RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
 其实出现这种情况的原因,(由于我本人遇见bug比较多)我踩得坑分为两种 ,不知道还会不会有更多原因也是报如上错误!!!!

第一种情况(常见,通常不能完整训练1轮数据)

 如果您已经查到过本方法,并且未解决的话,可以直接看第二种情况~~~
 相信大家也查阅了很多如上述错误的帖子了,大部分都是说大家的标签设置不对!简单来说:拿VOC格式数据举例子: 假设您需要要做一个2分类,数据信息呢又都在VOC种类数据集中的 “Annotations” 文件夹之中的 “.xml” 文件中,但是数据不干净,不小心掺杂了其他数据集的 “.xml” 文件,图片也放进对应文件夹的话,就会导致数据标签多了1或者多类别, 所以再train数据集的时候,开始还能正常运行,当dataload加载到那个多余的 “.xml” 文件信息时就会在您提供的label.txt文件里面找不到这个分类,出现如上错误。在此给出一个检查所有Annotations 文件夹之中一共有多少个label的代码:

  •   假设现在的标签为allowed_labels = ['1', '2', '3', '0'], 以下代码会找出不是设定的标签值,且输出错误标签的绝对路径以及包含所有标签的labels.txt标签文件。
import os
import xml.etree.ElementTree as ET

from tqdm import tqdm


def getClsTxt(xmlDir, cls_txt, allowed_labels):
    """
    xmlDir        : XML directory path
    cls_txt       : Output cls file path
    allowed_labels: List of allowed labels
    """

    invalid_label_paths = []  # List to store paths of XML files with invalid labels

    for name in tqdm(os.listdir(xmlDir)):
        xmlFile = os.path.join(xmlDir, name)
        with open(xmlFile, "r+", encoding='utf-8') as fp:
            tree = ET.parse(fp)
            root = tree.getroot()

            invalid_labels = set()
            for obj in root.iter('object'):
                cls_element = obj.find('name')
                if cls_element is not None:
                    cls = cls_element.text
                    invalid_labels.add(cls)
                    if cls not in allowed_labels:
                        invalid_label_paths.append((xmlFile, cls))  # Store both XML path and invalid label

            set_cls.update(invalid_labels)

    if invalid_label_paths:
        print("Invalid labels found in the following XML files:")
        for path, invalid_label in invalid_label_paths:
            print(f"{path}, Error category is: {invalid_label}")
    else:
        print("No invalid labels found.")

    with open(cls_txt, "w+") as ft:
        for i in set_cls:
            ft.write(i + "\n")


if __name__ == '__main__':
    set_cls = set()
    xmlDir = "output/VOC-1205/Annotations"
    cls_txt = "output/VOC-1205/labels.txt"
    allowed_labels = ['1', '2', '3', '0']

    getClsTxt(xmlDir, cls_txt, allowed_labels)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51

 运行如下代码可以自动帮您生成所有 “.xml” 文件中出现过的label,并写入labels.txt中!然后您可以对比一下和自己原来训练所用的标签能否对应上。
 第一种情况的错误,如果您的数据加载代码没问题包含了所有的数据,一般会在第一轮训练不完就报此错误~~~

第二种情况(不常见,报错轮次随机)

 下图可见,作者训练了41轮次快结束时候报错,前面40多轮都是正常训练的,有时候不到三轮就报这个错误了,采用第一种情况的解决方法,对照了我自己的label种类发现都是没有问题的!出现这种问题的原因在于作者在魔改网络模型结构不精所致,可以细心的发现下图最底下报错日志多了一行。如下
/pytorch/aten/src/ATen/native/cuda/Loss.cu:115: operator(): block: [19,0,0], thread: [0,0,0] Assertion input_val >= zero && input_val <= one failed.
 该报错一下就能看出是loss函数的问题,原因是没有在魔改的层加上归一化层,可以在该层加上BatchNorm2d,或者在head层最后加上sigmoidsofmax激活函数即可解决。
在这里插入图片描述
也可以查看标签的范围:

assert targets.max() > 1 or targets.min() < 0, "label error max{} min{}".format(targets.max(), targets.min())
  • 1

第三种情况(训练不报错,验证报错如上错误)

  再次更新这篇博文,如果您上述两种情况都尝试过了,还是不行且每次训练不报错,都是在验证集上报错时,我这边有一个方法,对我是有效的,可以尝试一下,在读取数据时候将num_workers改为0。

DataLoader(num_workers=0)
  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/89185
推荐阅读
相关标签
  

闽ICP备14008679号