当前位置:   article > 正文

从零开始配置一个能用GPU训练的人工智能环境_如何使用gpu进行ai训练

如何使用gpu进行ai训练

写在前面

为了参加一个人工智能的比赛,我决定从零开始搭建一个能用GPU训练的人工智能环境,之前也搭建过,但是时间长了很多细节都忘了,也不好用了,所以决定重新来一个。

操作系统是Win11,显卡是3080,我记得显卡驱动、CUDA版本、CUDNN版本、Tensoflow版本都要对应,麻烦的一批。

先来一句FUCK YOU NVIDIA!
在这里插入图片描述
预期安装的各个工具版本:

tensorflow==2.10

CUDA==11.2

cuDNN==8.1

在这里插入图片描述

第一步 建立一个python环境

听说tensorflow 2.12版本往后在windows上不再支持GPU加速了,即便装上GPU也不好使,那还是安装老版本吧,安装一个2.10版本的tensorflow,在python3.8版本
先进conda,创建一个环境conda create --name tf2.10_env python=3.8
使用环境conda activate tf2.10_env,然后安装tensorflow2.10:pip install tensorflow==2.10
conda之前配置过清华还是阿里的镜像,但是家里网络有点抽风下载的很慢,出去遛完娃回家以后装好的。

第二步 检查显卡驱动

首先我的显卡是GeForce RTX 3080,计算能力86,这个可以从英伟达开发者网站上看到
在这里插入图片描述
然后看一下自己显卡当前的驱动版本,右键桌面空白处打开NIVDIA控制面板,在帮助->系统信息里可以看到如下信息:
在这里插入图片描述
那就是说,我的驱动程序版本是545.84,然后干什么呢,看看这个驱动程序跟CUDA、cuDNN的版本是不是兼容,从NVIDIA官网上可以看到一个对应关系表,往下拉看Table 2:
在这里插入图片描述
所以说,我的驱动版本是足够的,装CUDA 11.2.X应该没有问题,那就装CUDA。

第三步 安装CUDA

首先可以看看自己能装的最高版本的CUDA是多少,cmd命令行窗口执行nvidia-smi,会出现下面的信息表,这里的CUDA Version:12.3就表示能安装的最高版本CUDA是12.3,这个是向下兼容的,所以我装11.2应当没问题
在这里插入图片描述

直接在NVIDIA开发者网站找到下载,通过修改URL中的版本号就可以找到对应的CUDA Toolkit下载页面

但是!这个地方就可能出现了问题,我是Win 11的操作系统,但是没有Win 11的对应下载,只对应到Win 10,所以我就下Win 10,如果后面除了问题,很有可能就是这里的坑。你问我为什么不下载高版本的CUDA,因为文章里说tensorflow2.10往后的版本装在windows上也检测不到gpu,所以参照tensorflow与CUDA对应表看一眼,tensorflow 2.10对应CUDA就是11.2,所以先怂一波
在这里插入图片描述
选离线下载,2.9G,迅雷启动!

下载完了以后,参考前人经验来一波安装
在这里插入图片描述
第一个路径用默认的可以,这是一个临时的解压路径,解压完了就会删掉,如果这个地方选择了自己心仪的目录,它也会给删掉,我们在后面设置安装路径就好了

然后点OK,就出问题了
在这里插入图片描述
那应该是我之前的CUDA没删干净,打开控制面板,继续卸载,我之前只把带着11.6(我之前的版本)的东西删掉了,看样子没有阉干净,拖出去再阉!

又删掉了这几个
在这里插入图片描述
然后就可以了
在这里插入图片描述
程序员必须自定义
在这里插入图片描述
大佬笔记里说如果是第N次安装,只装CUDA就好,不然会出错,显然我是这种情形,那就只装CUDA
在这里插入图片描述
然后这里要设置三个安装位置,我在我的电脑建了三个文件夹,分别安装三个组件,但是大佬笔记里说不建议修改这里的路径,说后期开发报错很多来源于路径问题,我不信邪,硬改
在这里插入图片描述
在这里插入图片描述
行,你让我装我就装咯
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
好了,这就装完了,然后配置环境变量,这四个环境变量是自动生成的,那就不需要管了
在这里插入图片描述
cmd执行nvcc -V,显示信息就是安装成功
在这里插入图片描述

第四步 cuDNN下载

参照最开始的表格,从这个网站里找到对应版本的cuDNN版本,下个新一点的吧
在这里插入图片描述
展开选择Windows版本
在这里插入图片描述
然后这个东西需要由NVIDIA的账号才能下载,如果没有就注册一个,有就直接登录,我因为太久不登录了,会往邮箱里发验证邮件,登录完了以后接受协议
在这里插入图片描述
如果页面跳转失败,回到一开始的页面再次找到cuDNN下载就行了,迅雷再次启动!
cuDNN下载完以后是一个压缩包,先解压缩
解压完了以后会得到三个文件夹
在这里插入图片描述
把这3个文件夹直接复制到CUDA的Development目录(这个目录是我自己定义的,所以不带有版本号)下即可
然后把bin, include, lib, libnvvp四个文件夹添加到Path环境变量中
在这里插入图片描述
在这里插入图片描述
然后就可以验证cuDNN是不是装好了,方法是进入到CUDA安装目录的\extras\demo_suite目录(我的路径是F:\Softwares\CUDA\Development\extras\demo_suite),打开cmd,然后分别执行bandwidthTest.exedeviceQuery.exe
在这里插入图片描述
在这里插入图片描述
显示两个PASS就没问题了

第五步 看看tensorflow

回到conda界面,输入python进入python交互窗口,输入下面的代码:

import tensorflow as tf
print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU')))
  • 1
  • 2

输出是
在这里插入图片描述
意思是tensorflow检测到了GPU,噢耶!

因为我要做一个图像识别的任务,所以需要安装一个库
pip install pillow opencv-python
然后跑一下代码看看效果

import os
import cv2
from datetime import datetime
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.image import load_img, img_to_array
from tensorflow.keras import layers, models

LABEL_ID_OBJECT_MAPPING = {
    "0": "bus",
    "1": "traffic_light",
    "2": "traffic_sign",
    "3": "person",
    "4": "bike",
    "5": "truck",
    "6": "motor",
    "7": "car",
    "8": "rider"
}

# 定义类别标签和颜色对应关系
# LABEL_COLORS = {
#     'bus': (255, 0, 0),       # 红色
#     'traffic_light': (0, 255, 0),       # 绿色
#     'traffic_sign': (0, 0, 255),      # 蓝色
#     'person': (255, 255, 0),     # 黄色
#     'bike': (0, 255, 255),    # 青色
#     'truck': (255, 0, 255),  # 品红
#     'motor': (255, 165, 0),   # 橙色
#     'car': (128, 0, 128),     # 紫色
#     'rider': (255, 192, 203)  # 粉红
# }
LABEL_COLORS = {
    '0': (255, 0, 0),  # 红色
    '1': (0, 255, 0),  # 绿色
    '2': (0, 0, 255),  # 蓝色
    '3': (255, 255, 0),  # 黄色
    '4': (0, 255, 255),  # 青色
    '5': (255, 0, 255),  # 品红
    '6': (255, 165, 0),  # 橙色
    '7': (128, 0, 128),  # 紫色
    '8': (255, 192, 203)  # 粉红
}

label_map = {label: idx for idx, label in enumerate(LABEL_COLORS.keys())}


def load_annotations(file_path):
    annotations = []
    with open(file_path, 'r') as file:
        for line in file.readlines():
            label, x1, y1, x2, y2 = line.strip().split()
            x1, y1, x2, y2 = map(int, [x1, y1, x2, y2])
            label_idx = label_map[label]
            annotations.append((label_idx, x1, y1, x2, y2))
    return annotations


def load_dataset(image_dir, annotation_dir):
    images = []
    boxes = []
    for image_name in os.listdir(image_dir):
        image_path = os.path.join(image_dir, image_name)
        annotation_path = os.path.join(annotation_dir, image_name.replace('.jpg', '.txt'))

        image = load_img(image_path, target_size=None)  # 不进行缩放
        image = img_to_array(image)
        image = image / 255.0

        annotation = load_annotations(annotation_path)

        images.append(image)
        boxes.append(annotation)

    return np.array(images), boxes


def create_model():
    inputs = tf.keras.Input(shape=(720, 1280, 3))

    x = layers.Conv2D(16, (3, 3), activation='relu')(inputs)
    x = layers.MaxPooling2D((2, 2))(x)

    x = layers.Conv2D(32, (3, 3), activation='relu')(x)
    x = layers.MaxPooling2D((2, 2))(x)

    x = layers.Conv2D(64, (3, 3), activation='relu')(x)
    x = layers.MaxPooling2D((2, 2))(x)

    x = layers.Conv2D(128, (3, 3), activation='relu')(x)
    x = layers.MaxPooling2D((2, 2))(x)

    x = layers.Flatten()(x)
    x = layers.Dense(256, activation='relu')(x)

    # 分类头
    class_output = layers.Dense(len(LABEL_COLORS), activation='softmax', name='class_output')(x)

    # 回归头
    bbox_output = layers.Dense(4, name='bbox_output')(x)

    model = models.Model(inputs=inputs, outputs=[class_output, bbox_output])

    return model


def data_generator(images, boxes, batch_size):
    while True:
        for i in range(0, len(images), batch_size):
            batch_images = images[i:i + batch_size]
            batch_boxes = boxes[i:i + batch_size]

            batch_class_labels = []
            batch_bbox_labels = []

            for annotations in batch_boxes:
                class_labels = []
                bbox_labels = []
                for label, x1, y1, x2, y2 in annotations:
                    class_labels.append(label)
                    bbox_labels.append([x1, y1, x2, y2])

                # 如果一个图像中有多个物体,取第一个物体的标签和坐标(简单示例,不适用于复杂情况)
                batch_class_labels.append(class_labels[0])
                batch_bbox_labels.append(bbox_labels[0])

            yield np.array(batch_images), {'class_output': np.array(batch_class_labels),
                                           'bbox_output': np.array(batch_bbox_labels)}


if __name__ == '__main__':
    # 加载数据
    image_dir = 'dataset/images'
    annotation_dir = 'dataset/annotations'
    images, boxes = load_dataset(image_dir, annotation_dir)
    # 建立模型
    model = create_model()
    model.compile(optimizer='adam', loss={'class_output': 'sparse_categorical_crossentropy', 'bbox_output': 'mse'})
    #  数据生成器
    batch_size = 8  # 由于图像尺寸较大,减小批量大小以适应内存
    train_gen = data_generator(images, boxes, batch_size)
    # 训练模型
    epochs = 10
    steps_per_epoch = len(images) // batch_size
    model.fit(train_gen, steps_per_epoch=steps_per_epoch, epochs=epochs)
    # 保存模型
    model_name = datetime.now().strftime("%Y-%m-%d %H:%M:%S").replace(" ", "-").replace(":", "-")
    model.save(f"model/{model_name}")


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150

任务管理器启动,看到GPU百分比上来了,训练速度快了不止一点,我爽了!
在这里插入图片描述
就到这里吧,我要通宵训练了,拜拜!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/758961
推荐阅读
相关标签
  

闽ICP备14008679号