搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
喵喵爱编程
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
DALL-E: Zero-Shot Text-to-Image Generation
2
服务器运维 考什么证书,腾讯云服务器运维高级工程师认证(TCP)证书有效期、考试内容、费用...
3
Pytest脚本的加载原理_pytest加载模块方式
4
华为云短信服务教你用C++实现Smgp协议
5
【数据结构】二叉树的遍历知识点_已知一棵二叉树的层次序列为abcdef,中序序列为badcfe,则先序序列为( )。
6
AI绘画入门教学:ComfyUI工作流安装教程
7
论述MySQL的同异步复制
8
android 性能分析工具(01)systrace_android systrace
9
Debian上安装Docker_debian安装docker
10
3D gaussian splatting(3DGS)运行过程记录_3dgs运行
当前位置:
article
> 正文
GPU--学习笔记_gpu算力单位
作者:喵喵爱编程 | 2024-07-05 07:31:25
赞
踩
gpu算力单位
GPU性能参数
:
计算能力(吞吐量)
:
通常关心的是32位浮点计算能力。16位浮点训练也开始流行,如果只做预测的话也可以用8位整数。
单位为GFLOP/s,算力指标,表示每秒的浮点操作数量
每秒浮点运算量,是衡量GPU硬件计算能力的指标。
显存大小
:
当模型越大,或者训练时的批量越大时,所需要的GPU内存就越多。
其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据**。显存容量大小决定了GPU能够加载的数据量大小**。(在显存已经可以满足客户业务的情况下,提升显存不会对业务性能带来大的提升。在深度学习、机器学习的训练场景,显存的大小决定了一次能够加载训练数据的量,在大规模训练时,显存会显得比较重要。
显存位宽
:
位数越大则瞬间所能传输的数据量越大
显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大。这是显存的重要参数之一。
目前市场上的显存位宽有64位、128位、256位和512位几种,人们习惯上叫的64位显卡、128位显卡和256位显卡就是指其相应的显存位宽。显存位宽越高,性能越好价格也就越高,因此512位宽的显存更多应用于高端显卡,而主流显卡基本都采用128和256位显存。
显存带宽
:
只有当内存带宽足够时才能充分发挥计算能力。
CUDA GPU的计算速度可以达到gigaflops(每秒10亿次浮点操作),是Core i7/Nethalem速度的十倍。为充分利用强大的计算能力,需要从存储器中(全局显存或计算机内存)尽量快地给他们提供数据。所以内存带宽就是衡量GPU的一个重要指标。
制作工艺:
指的是晶体管与晶体管之间的距离,单位是纳米。制作工艺越小说明集成度越高,功耗越小,性能越好。目前NVIDIA最先进的Tesla采用7nm制程,GTX 1080 Ti采用16nm制程。
对于大部分用户来说,只要考虑计算能力就可以了。GPU内存尽量不小于4GB。但如果GPU要同时显示图形界面,那么推荐的内存大小至少为6GB。内存带宽通常相对固定,选择空间较小。
GPU
基本概念
:
CUDA
:
是显卡厂商NVIDIA推出的运算平台。
CUDA核心数量决定了GPU并行处理的能力,在深度学习、机器学习等并行计算类业务下,CUDA核心多意味着性能好一些。
CUDA核心:每个GPU时钟进行一次单值乘法;
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。
Tensor Core
:
CUDA是NVIDIA推出的统一计算架构,NVIDIA过去的几乎每款GPU都有CUDA Core,而Tensor Core是最近几年才有的,Tensor Core是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数。Tensor核心在训练方面能够提供高达12倍的teraflops (TFLOPS) 峰值,而在推理方面则可提供6倍的TFLOPS峰值。每个Tensor核心每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。
张量核心:每个GPU时钟进行一次矩阵乘法
FLOPS:即每秒浮点运算次数(亦称每秒峰值速度)是每秒所执行的浮点运算次数(英文:Floating-point operations per second;缩写:FLOPS)的简称,被用来评估电脑效能,尤其是在使用到大量浮点运算的科学计算领域中。
英伟达GPU类别
:
gpu架构:Tesla、Fermi、Kepler、Maxwell、Pascal
显卡系列:GeForce-家庭娱乐、Quadro-工作站、Tesla-服务器
GeForce显卡型号:G/GS、GT、GTS、GTX、RTX
显卡系列在本质上并没有什么区别,只是NVIDIA希望区分成三种选择,GeFore用于家庭娱乐,Quadro用于工作站,而Tesla系列用 于服务器。Tesla的k型号卡为了高性能科学计算而设计。
GeForce的显卡型号是不同的硬件定制,越往后性能越好,时钟频率越高显存越大,即G/GS<GT<GTS<GTX<RTX。
GTX 到RTX:RTX20显卡采用的“图灵”架构引入了RT计算单元,使其光线追踪性能超越上一代显卡的六倍,拥有了即时处理游戏光追的条件,NVIDIA认为这是一个划时代的进化,于是果断把沿用多年的“GTX”改名为“RTX”。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/喵喵爱编程/article/detail/789540
推荐阅读
article
在
idea
中
使用
mysql
(超详细)
_
idea
mysql
...
找到
mysql
,点击驱动程序文件下面的加号,点击提供的驱动程序,选择
mysql
驱动程序(
mysql
connector/...
赞
踩
article
C语言
数据结构
——带头双向循环
链表
_
listnode
**
current
=
head
;的意思...
一、
链表
的分类。二、带头双向循环
链表
:2.1 概念及其结构分析、2.2带头双向循环
链表
的实现、2.3带头双向循环
链表
源码...
赞
踩
article
浙江大学
计算机与软件学院20
1
9年保研上机_
7
-
1
happy
numbers
...
这套题跟20
1
9年考研上机题难度差了几个数量级,建议完成时间不超过80分钟。
7
-
1
Happy Numbers (20 ...
赞
踩
article
TCP
、
UDP
详解_
tcp
和
udp
的
连接
和
不
连接
...
TCP
和
UDP
是传输层的两个重要协议,也是面试中经常会被问到的,属于面试高频点。今天,我们来学习这两个协议。_
tcp
和
u...
赞
踩
article
0基础在
ROS
系统
中
实现
RRT算法(三)
RVIZ
中
用
arbotix
控制
机器人
运动_
ros
导航
中
可以不...
小白一枚,毕设突发奇想加入了
ROS
的
内容,不知道自己还能不能毕业。以下均为通过看视频,翻博客等整理而成
的
笔记,并非我
的
原...
赞
踩
article
[大
模型
]
Qwen2
-7B-
Instruct
Lora
微调
_
qwen2
-7b
微调
...
Lora
Config这个类中可以设置很多参数,但主要的参数没多少,简单讲一讲,感兴趣的同学可以直接看源码。task_ty...
赞
踩
article
C语言
中文
文档...
C语言
中文
文档
C语言
中文
文档
C语言
中文
文档 ...
赞
踩
article
uni
-
app
开发
Hbuilder
X的基本使用_
uni
app
hbuilder
...
HBuilder X 是一个全能的 HTML5 程序
开发
工具,其功能非常强大,其特点有:高效的
开发
体验:HBuilder...
赞
踩
article
怎样从零
开始
学
习
网络
工程师
?_
网络
工程师
需要
从初级
开始
学
吗...
为了帮助大家更好的
学
习
网络
安全,我给大家准备了一份
网络
安全入门/进阶
学
习
资料,里面的内容都是适合零基础小白的笔记和资料,...
赞
踩
article
web前端
学习
(十七)——
CSS3
列表
属性(
list
-
style
)的相关设置_
list
-
style
-...
web前端
学习
(十七)——
CSS3
列表
属性(
list
-
style
)的相关设置_
list
-
style
-
type
list
-s...
赞
踩
article
滑雪
问题
_
一家
新开业
的
滑雪
场
,
需要采购不同规格的
滑雪
板
,
每个
滑雪
板
的长度是不固定的
,
现在...
#include #include using namespace std;int f[101][101];int a[...
赞
踩
article
《
计算机
应用
》
投稿
经验
(
202
4
年
4
月录用)
_
计算机
应用
投稿
经验
...
视觉定位相关论文,从23年12月底开始
投稿
,经历了一次小修,其余两次都是格式的修改,编辑部小姐姐人很好,审稿专家建议非常...
赞
踩
article
leetcode
算法题解整理之树专题部分_
给定
一棵具有
n
个
节点
的
特殊
二叉树
的
根
节点
root
...
257_91常用拷贝和替换算法-repalce_if功能描述:将区间内满足条件
的
元素,替换成指定元素函数原型:repla...
赞
踩
article
Javabase_
day07
_
java
一、有以下数据
:
1
.三个老师信息
:
教师
编号
姓名性别年龄科目...
知识点:类,封装,this关键字,构造方法案例一
教师
类package com.hhit.
day07
.demo0
1
;/* ...
赞
踩
article
JavaScript
入门
事件
简介/
事件
对象
位置属性 /鼠标
事件
/表单
事件
/键盘
事件
/
浏览器
相关
事件
...
事件
简介/
事件
对象
位置属性 /鼠标
事件
/表单
事件
/键盘
事件
/
浏览器
相关
事件
/焦点
事件
/触摸
事件
_
document
.ont...
赞
踩
article
人工智能
AI
挑战
高考
试卷
,
结果这次人类赢
了
!...
计算机视觉研究院专栏作者:Edison_G
高考
已经结束很久
,
不知道参加考试的你们考得怎么样?据说今年的数学又上天
了
?据说...
赞
踩
article
Android
APK
反编译
就这么简单 详解(附图)
,
2024年
Android
开发
实战...
开发
中应用、APP框架知识体系、高级UI、全方位性能调优
,
NDK
开发
,
音视频技术
,
人工智能技术
,
跨平台技术等技术资料)
,
...
赞
踩
article
【超详细】
基于
单片机
控制
的
十字
道路口
交通灯
控制
_
基于
单片机
的
十字
路口
...
【超详细】
基于
单片机
控制
的
十字
道路口
交通灯
控制
,原理图pdsprj和源程序c在本文末(完整)全文26图含流程图共1165...
赞
踩
article
Linux
-
安装
nacos
(详细教程)
_
linux
安装
nacos
...
Nacos是阿里巴巴推出的一个新开源项目,它主要是一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。Nac...
赞
踩
article
通过U盘安装
Win10
系统
的
具体方法
示例_
ultraiso
写入
win10
...
通过U盘安装
Win10
系统
的
具体方法
示例_
ultraiso
写入
win10
ultraiso
写入
win10
...
赞
踩
相关标签
mysql
数据库
java
intellij-idea
数据结构
链表
c语言
tcp/ip
udp
网络协议
自动驾驶
人工智能
机器学习
redis
缓存
开发语言
uni-app
学习
网络
web安全
网络安全
安全
系统安全
计算机网络