搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
喵喵爱编程
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
python 连接MySQL数据库,前端使用HTML并引用bootstrap/css 模板_python如何使用bootstrap
2
无线网络加密方式
3
【二】软核学习_tf 软核
4
【算法】六大排序 插入排序 希尔排序 选择排序 堆排序 冒泡排序 快速排序_简单排序,简单插入排序,堆排序,快速排序
5
15个最流行的免费3D CAD模型下载网站【2023】_cad免费素材库
6
python爬取2345天气网气象数据
7
MYSQL: 渐行渐远的开源关系型数据库典范_mysql关系型数据库
8
van-list 遇到的问题
9
Java设置PPT幻灯片背景——纯色、渐变、图片背景
10
SQL数据库邮件定时发送_hivesql定时邮件
当前位置:
article
> 正文
GPU--学习笔记_gpu算力单位
作者:喵喵爱编程 | 2024-07-05 07:31:25
赞
踩
gpu算力单位
GPU性能参数
:
计算能力(吞吐量)
:
通常关心的是32位浮点计算能力。16位浮点训练也开始流行,如果只做预测的话也可以用8位整数。
单位为GFLOP/s,算力指标,表示每秒的浮点操作数量
每秒浮点运算量,是衡量GPU硬件计算能力的指标。
显存大小
:
当模型越大,或者训练时的批量越大时,所需要的GPU内存就越多。
其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据**。显存容量大小决定了GPU能够加载的数据量大小**。(在显存已经可以满足客户业务的情况下,提升显存不会对业务性能带来大的提升。在深度学习、机器学习的训练场景,显存的大小决定了一次能够加载训练数据的量,在大规模训练时,显存会显得比较重要。
显存位宽
:
位数越大则瞬间所能传输的数据量越大
显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大。这是显存的重要参数之一。
目前市场上的显存位宽有64位、128位、256位和512位几种,人们习惯上叫的64位显卡、128位显卡和256位显卡就是指其相应的显存位宽。显存位宽越高,性能越好价格也就越高,因此512位宽的显存更多应用于高端显卡,而主流显卡基本都采用128和256位显存。
显存带宽
:
只有当内存带宽足够时才能充分发挥计算能力。
CUDA GPU的计算速度可以达到gigaflops(每秒10亿次浮点操作),是Core i7/Nethalem速度的十倍。为充分利用强大的计算能力,需要从存储器中(全局显存或计算机内存)尽量快地给他们提供数据。所以内存带宽就是衡量GPU的一个重要指标。
制作工艺:
指的是晶体管与晶体管之间的距离,单位是纳米。制作工艺越小说明集成度越高,功耗越小,性能越好。目前NVIDIA最先进的Tesla采用7nm制程,GTX 1080 Ti采用16nm制程。
对于大部分用户来说,只要考虑计算能力就可以了。GPU内存尽量不小于4GB。但如果GPU要同时显示图形界面,那么推荐的内存大小至少为6GB。内存带宽通常相对固定,选择空间较小。
GPU
基本概念
:
CUDA
:
是显卡厂商NVIDIA推出的运算平台。
CUDA核心数量决定了GPU并行处理的能力,在深度学习、机器学习等并行计算类业务下,CUDA核心多意味着性能好一些。
CUDA核心:每个GPU时钟进行一次单值乘法;
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。
Tensor Core
:
CUDA是NVIDIA推出的统一计算架构,NVIDIA过去的几乎每款GPU都有CUDA Core,而Tensor Core是最近几年才有的,Tensor Core是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数。Tensor核心在训练方面能够提供高达12倍的teraflops (TFLOPS) 峰值,而在推理方面则可提供6倍的TFLOPS峰值。每个Tensor核心每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。
张量核心:每个GPU时钟进行一次矩阵乘法
FLOPS:即每秒浮点运算次数(亦称每秒峰值速度)是每秒所执行的浮点运算次数(英文:Floating-point operations per second;缩写:FLOPS)的简称,被用来评估电脑效能,尤其是在使用到大量浮点运算的科学计算领域中。
英伟达GPU类别
:
gpu架构:Tesla、Fermi、Kepler、Maxwell、Pascal
显卡系列:GeForce-家庭娱乐、Quadro-工作站、Tesla-服务器
GeForce显卡型号:G/GS、GT、GTS、GTX、RTX
显卡系列在本质上并没有什么区别,只是NVIDIA希望区分成三种选择,GeFore用于家庭娱乐,Quadro用于工作站,而Tesla系列用 于服务器。Tesla的k型号卡为了高性能科学计算而设计。
GeForce的显卡型号是不同的硬件定制,越往后性能越好,时钟频率越高显存越大,即G/GS<GT<GTS<GTX<RTX。
GTX 到RTX:RTX20显卡采用的“图灵”架构引入了RT计算单元,使其光线追踪性能超越上一代显卡的六倍,拥有了即时处理游戏光追的条件,NVIDIA认为这是一个划时代的进化,于是果断把沿用多年的“GTX”改名为“RTX”。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/喵喵爱编程/article/detail/789540
推荐阅读
article
微信
小
程序
头像
修改功能
实现
详解(新版)_
微信
小
程序
选择
头像
...
本文详细介绍了如何在
微信
小
程序
中
实现
用户
头像
的修改功能。首先,通过页面布局添加触发
头像
选择
的按钮,并在页面显示时获取和设...
赞
踩
article
SqlServer
日期
格式转换...
SqlServer
日期
格式转换Select CONVERT(varchar(100), GETDATE()_sqlser...
赞
踩
article
解决VS打不开
xxx
.
ui
文件
,
xxx
.
ui
无法
打开
文件
_
vs
无法
打开
ui
文件
...
在使用
vs
进行开发时,居然
无法
打开
qt的
ui
文件
。这本质上是因为找不到designer.exe的路径。_
vs
无法
打开
ui
...
赞
踩
article
我
是
怎么
把
博客
粉丝转
到
公众
号
的...
“ 阅读本文大概需要 6 分钟。 ”在这个互联网时代,拥有流量就仿佛于拥有了一切。我大约在 2014 年底开了自己的个人...
赞
踩
article
python
turtle
绘图
_库
Turtle
:用
Python
指挥
小海龟
在屏幕上
绘图
,流行的儿童编...
海龟
绘图
(
Turtle
Graphics)是向儿童介绍编程的流行方式,源于Wally Feurzig和Seymour P...
赞
踩
article
2024
高考
数学
压轴
题
解析
——
数学
VS
AI
最后的倔强...
早点关注我,精彩不错过!20240607,今年
高考
数学
正式落下帷幕。遥想过去2年,都是1天内就迅速过了一把瘾,短暂进入那...
赞
踩
article
大
数据
新手必看!一文详尽
Spark
机器
学习
库的
安装
与入门_
sparkmlib
安装
...
众所周知,大
数据
组件之多,
安装
之繁琐,配置之复杂,往往成为阻拦新手入门的一道关卡。本文详尽
安装
Spark
机器
学习
库的
安装
...
赞
踩
article
基于
深度
学习
的
图片
检索...
基于
深度
学习
的
图片
检索方法通过卷积神经网络、Siamese Network、Triplet Network、Deep H...
赞
踩
article
如何进行
文件
的
读取
和
写入
操作
?_c
文件
系统读、写基本方法
和
操作
;...
文件
操作
是C语言编程中的重要部分,本文详细介绍了如何进行
文件
的
读取
和
写入
操作
,包括文本
文件
和
二进制
文件
的处理。打开
和
关闭...
赞
踩
article
探索
MongoDB
工具
:强大的
数据库
管理
利器...
探索
MongoDB
工具
:强大的
数据库
管理
利器项目地址:https://gitcode.com/mongodb/mongo...
赞
踩
article
Android
科大
讯
飞
语音
识别
(详细步骤+源码)_
android
讯
飞实时
语音
识别
...
前言
语音
识别
在现在的APP中是常见的,但是通常小的项目中我们不会去费心思自己去做这一块的业务功能开发,常规的是接入第三方...
赞
踩
article
青少年
人工智能
Python
编程水平测试四级 模拟试卷
1
试题解析_
a
=
1
,
if
a
>0:
a
=
a
+
1
,...
青少年
人工智能
Python
编程水平测试四级 模拟试卷
1
试题解析_
a
=
1
,
if
a
>0:
a
=
a
+
1
,
if
a
>
1
:, ...
赞
踩
article
CVPR
、
ECCV
、
WACV
、
ICCV
会议
举办时间地点及
出版
地和
出版
社_ieee
计算机
视觉与
模式识别
...
CVPR
(
计算机
视觉和
模式识别
会议
)是
计算机
视觉和
模式识别
领域最顶级的学术
会议
之一,每年召开一次,由美国
计算机
视觉和模式...
赞
踩
article
基于
深度
学习
的
命名
实体识别代码阅读-
1
...
1
、导入相关
的
模块import tensorflow as tf ##导入tensorflow模块import nump...
赞
踩
article
HTTP
常见
状态码...
2xx: 代表请求已成功被服务器接收、理解、并接受。3xx: 重定向,需要客户端采取进一步的操作才能完成请求4xx: 客...
赞
踩
article
弹性
公网
IP
带宽
与
内网
带宽
有何差异?_为什么出网
带宽
使用量大于
弹性
公网
ip
带宽
...
弹性
公网
IP
带宽
是指
弹性
云服务器通过
弹性
公网
IP
访问
公网
时使用的
带宽
。通过
弹性
公网
IP
带宽
显示网络的使用情况,作为计费的...
赞
踩
article
每次
面试
前必
看笔试
题
汇总~~~~~~~~~~~~~~~~~~~~~~~~~...
题
目1:判断链表是否有环#include
using namespace std;struc...
赞
踩
article
基于
Triton
Inference
Server
的
算法服务...
以目标检测为例定义输入输出: 参数名, 参数类型, 参数维度。基于
Triton
Inference
Server
的
算...
赞
踩
article
Windows
基线
加固
/等
保
整改_
win11
等
保
加固
...
右击本地连接—》internet协议版本 4—》属性—》高级—》选项,在选项的属性中启用网络连接的TCP/IP筛选,是开...
赞
踩
article
【
Git
系列】
rebase
的
使用
场景_
git
rebase
使用
...
Rebase 是
Git
版本控制系统中
的
一种操作,它用于将一个分支
的
修改应用到另一个分支上。Rebase
的
主要目
的
是...
赞
踩
相关标签
前端
uni-app
微信小程序
数据库
sql
ui
qt
开发语言
c++
python turtle 绘图
人工智能
高考
算法
大数据
hadoop
apache spark
机器学习
scala
深度学习
dnn
Android 语音识别
科大讯飞语音识别
手机语音识别
图形化编程