赞
踩
目录
1.1 CUDA下载
网址:https://developer.nvidia.com/cuda-toolkit-archive
可以根据需要下载不同版本的CUDA安装包。
1.2 CUDA安装
1.2.1 双击下载的.exe文件安装
1.2.2 点击‘OK’
1.2.3 上一步解压完成后,会自动跳到下图,点击‘同意并继续’即可,由于我已经安装过了,下图是我在网上找的一个图,各版 本都一样
2.1 右击此电脑→属性→高级系统设置→环境变量
2.2 系统变量里添加:
CUDA_SDK_PATH = C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.1
CUDA_LIB_PATH = %CUDA_PATH%\lib\x64
CUDA_BIN_PATH = %CUDA_PATH%\bin
CUDA_SDK_BIN_PATH = %CUDA_SDK_PATH%\bin\win64
CUDA_SDK_LIB_PATH = %CUDA_SDK_PATH%\common\lib\x64
注意:CUDA _PATH与CUDA _PATH_V10_1是CUDA安装时自动添加的;
CUDA _PATH_V10_1中的10_1是你安装CUDA的版本号
2.3 添加以下到系统变量path中,添加完点确定
%CUDA_LIB_PATH%
%CUDA_BIN_PAHT%
%CUDA_SDK_BIN_PAHT%
%CUDA_SDK_LIB_PATH%
2.4 重启电脑,然后打开cmd,输入: set cuda 即可看到下图
2.5 检查cuda是否安装好, 打开cmd,
2.5.1 输入:cd C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite
输入之后,注意是否为自己安装的目录,然后按‘Enter’键
2.5.2 找到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite目录下的deviceQuery.exe,在 cmd里输入:deviceQuery.exe
上图中Result=PASS,表示安装好,否则Result=Fail重装或更换cuda版本吧。
2.5.3 找到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite目录下的bandwidthTest.exe,在 cmd里输入:bandwidthTest.exe
上图中Result=PASS,表示安装好,否则Result=Fail重装或更换cuda版本吧。
3.1 打开VS2017新建工程
3.2 右击源文件→添加→新建项→CUDA C/C++ File;创建一个.cu文件
3.3 右击项目名称test_cuda2→生成依赖项→生成自定义,→选择CUDA10.1→确定
3.4 右击cuda_test.cu文件→属性→配置属性→常规→项类型→CUDA C/C++
3.5 右击test_cuda2→属性
3.5.1→VC++目录。在包含目录中添加C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\include;在库目录中添加 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\lib\x64。
注意:要根据自己的CUDA安装添加正确的目录
3.5.2 →链接器→输入→附加依赖项。再附加依赖项中添加相应的.lib文件名称
我这里加的比较多cublas.lib
cublasLt.lib
cuda.lib
cudadevrt.lib
cudart.lib
cudart_static.lib
cufft.lib
cufftw.lib
curand.lib
cusolver.lib
cusparse.lib
nppc.lib
nppial.lib
nppicc.lib
nppicom.lib
nppidei.lib
nppif.lib
nppig.lib
nppim.lib
nppist.lib
nppisu.lib
nppitc.lib
npps.lib
nvblas.lib
nvgraph.lib
nvml.lib
nvrtc.lib
OpenCL.lib
3.6 配置成功后,这里附带一个测试程序:
-
- // CUDA runtime 库 + CUBLAS 库
- #include "cuda_runtime.h"
- #include "cublas_v2.h"
-
- #include <time.h>
- #include <iostream>
-
- using namespace std;
-
- // 定义测试矩阵的维度
- int const M = 5;
- int const N = 10;
-
- int main()
- {
- // 定义状态变量
- cublasStatus_t status;
-
- // 在 内存 中为将要计算的矩阵开辟空间
- float *h_A = (float*)malloc(N*M * sizeof(float));
- float *h_B = (float*)malloc(N*M * sizeof(float));
-
- // 在 内存 中为将要存放运算结果的矩阵开辟空间
- float *h_C = (float*)malloc(M*M * sizeof(float));
-
- // 为待运算矩阵的元素赋予 0-10 范围内的随机数
- for (int i = 0; i < N*M; i++) {
- h_A[i] = (float)(rand() % 10 + 1);
- h_B[i] = (float)(rand() % 10 + 1);
-
- }
-
- // 打印待测试的矩阵
- cout << "矩阵 A :" << endl;
- for (int i = 0; i < N*M; i++) {
- cout << h_A[i] << " ";
- if ((i + 1) % N == 0) cout << endl;
- }
- cout << endl;
- cout << "矩阵 B :" << endl;
- for (int i = 0; i < N*M; i++) {
- cout << h_B[i] << " ";
- if ((i + 1) % M == 0) cout << endl;
- }
- cout << endl;
-
- /*
- ** GPU 计算矩阵相乘
- */
-
- // 创建并初始化 CUBLAS 库对象
- cublasHandle_t handle;
- status = cublasCreate(&handle);
-
- if (status != CUBLAS_STATUS_SUCCESS)
- {
- if (status == CUBLAS_STATUS_NOT_INITIALIZED) {
- cout << "CUBLAS 对象实例化出错" << endl;
- }
- getchar();
- return EXIT_FAILURE;
- }
-
- float *d_A, *d_B, *d_C;
- // 在 显存 中为将要计算的矩阵开辟空间
- cudaMalloc(
- (void**)&d_A, // 指向开辟的空间的指针
- N*M * sizeof(float) // 需要开辟空间的字节数
- );
- cudaMalloc(
- (void**)&d_B,
- N*M * sizeof(float)
- );
-
- // 在 显存 中为将要存放运算结果的矩阵开辟空间
- cudaMalloc(
- (void**)&d_C,
- M*M * sizeof(float)
- );
-
- // 将矩阵数据传递进 显存 中已经开辟好了的空间
- cublasSetVector(
- N*M, // 要存入显存的元素个数
- sizeof(float), // 每个元素大小
- h_A, // 主机端起始地址
- 1, // 连续元素之间的存储间隔
- d_A, // GPU 端起始地址
- 1 // 连续元素之间的存储间隔
- );
- cublasSetVector(
- N*M,
- sizeof(float),
- h_B,
- 1,
- d_B,
- 1
- );
-
- // 同步函数
- cudaThreadSynchronize();
-
- // 传递进矩阵相乘函数中的参数,具体含义请参考函数手册。
- float a = 1; float b = 0;
- // 矩阵相乘。该函数必然将数组解析成列优先数组
- cublasSgemm(
- handle, // blas 库对象
- CUBLAS_OP_T, // 矩阵 A 属性参数
- CUBLAS_OP_T, // 矩阵 B 属性参数
- M, // A, C 的行数
- M, // B, C 的列数
- N, // A 的列数和 B 的行数
- &a, // 运算式的 α 值
- d_A, // A 在显存中的地址
- N, // lda
- d_B, // B 在显存中的地址
- M, // ldb
- &b, // 运算式的 β 值
- d_C, // C 在显存中的地址(结果矩阵)
- M // ldc
- );
-
- // 同步函数
- cudaThreadSynchronize();
-
- // 从 显存 中取出运算结果至 内存中去
- cublasGetVector(
- M*M, // 要取出元素的个数
- sizeof(float), // 每个元素大小
- d_C, // GPU 端起始地址
- 1, // 连续元素之间的存储间隔
- h_C, // 主机端起始地址
- 1 // 连续元素之间的存储间隔
- );
-
- // 打印运算结果
- cout << "计算结果的转置 ( (A*B)的转置 ):" << endl;
-
- for (int i = 0; i < M*M; i++) {
- cout << h_C[i] << " ";
- if ((i + 1) % M == 0) cout << endl;
- }
-
- // 清理掉使用过的内存
- free(h_A);
- free(h_B);
- free(h_C);
- cudaFree(d_A);
- cudaFree(d_B);
- cudaFree(d_C);
-
- // 释放 CUBLAS 库对象
- cublasDestroy(handle);
-
- getchar();
-
- return 0;
- }
程序运行结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。