当前位置:   article > 正文

各种芯片简述以及算力解释:_int8算力

int8算力

目录

芯片算力

1、TOPS:(Tera/Trillion Operations Per Second)

2、FLOPS(floating-point operations per second)

3、FLOPs(FLoating point OPerations(s表复数)

4、MAC(Multiply Accumulate)

5、DMIPS(Dhrystone Million Instructions Per Second)

芯片介绍

1、分类

2、各芯片区别

①CPU

②DSP

③CODEC

④FPGA

⑤ASIC

⑥MCU

⑦SOC

⑧APU

⑨NPU

⑩DPU

⑪TPU

⑫BPU

⑬DDR

⑭EMMC

3、其他芯片


给学习做个总结,写的不对处希望大家指出。

芯片算力

1、TOPS:(Tera/Trillion Operations Per Second)

①每秒运行10^12(万亿)次,是指GPU的乘积累加矩阵处理器的运算能力:

②影响TOPS的算力因素:

取决于温度与电压,设计电路时,仿真或EDA给出3种分析状态:

Ⅰ:WCS:最坏状态,过程慢,温度高,电压低;

Ⅱ:TYP:标准状态,标准过程,额定温度,额定电压;

Ⅲ:BCF:最佳状态,过程快,低温,高压;

Ⅳ:TOPS宣称的算力都是在BCF下结果;

③TOPS理论值算法:

Ⅰ:TOPS真实值取决于内部SRAM带宽、外部DRAM带宽、指令集和模型优化成都,一般也就是50%的使用率;

Ⅱ:TOPS理论值取决于运算精度、MAC数量和运行频率,比如INT8(8位整数)的MAC数量在FP16(16位半精度浮点数)下减少一半,在FP32(32位单精度浮点数)下再减少一半,FP64(64位双精度浮点数),(假如有512个MAC,1GHz主频,INT8下的算力=512*2(2表示一个MAC为1次乘法和一次加法,为2次运算操作)*1GHz=1TOPS,则FP16精度下,就是0.5TOPS,FP32为0.25TOPS,FP64为0.125TOPS);

④、算力选择:软件一体化设计时,要考虑GPU还是CPU合适,网络模型一次要多少内存且同时要多少MAC,由此设计芯片,如果选了芯片,那么算法怎么兼容,是否减少内存访问来提高利用率,还是迁移CPU基于规则算法改为GPU的深度学习实现。

⑤TOPS的其他单位延伸:

Ⅰ:GOPS(Giga Operations Per Second):处理器每秒进行十亿次(10^9)操作;

Ⅱ:MOPS(Million Operation Per Second):处理器每秒进行一百万次(10^6)操作;

注意:TOPS只说明每秒万亿次操作,要结合了数据类型精度(INT8,FP16等)才能与FLOPS转换。

2、FLOPS(floating-point operations per second)

主要用于测浮点计算能力

①每秒所执行的浮点运算次数,表示运算速度;

②大部分处理器会用专门的浮点运算器(FPU)来处理小数,FLOPS就是FPU的执行速度;

③单位换算:

Ⅰ:MFLOPS(megaFLOPS):每秒一百万次(10^6)的浮点运算;

Ⅱ:GFLOPS(gigaFLOPS):每秒十亿(10^9)次的浮点运算;

Ⅲ:TFLOPS(teraFLOPS):每秒一万亿(10^12)次的浮点运算;

Ⅳ:PFLOPS(petaFLOPS):每秒一千万亿(10^15)次的浮点运算;

Ⅴ:EFLOPS(exaFLOPS):每秒一百亿亿(10^18)次浮点运算

3、FLOPs(FLoating point OPerations(s表复数)

①浮点运算次数,表示运算量,区别于FLOPS;

②用来评价深度学习模型的运算量,通过FLOPs可以换算出某已知参数在芯片上跑一次模型时间;

③1FLOPs的单位是FP32。

4、MAC(Multiply Accumulate)

①表示乘加运算;

②1MAC=a+b*c=2OP;

③MAC矩阵是AI芯片的核心。

5、DMIPS(Dhrystone Million Instructions Per Second)

CPU性能评估采用综合测试程序,较流行的有Whetstone和Dhrystone两种。Dhrystone主要用于测整数计算能力,计算单位就是DMIPS。Whetstone主要用于测浮点计算能力,计算单位就是MFLOPS

DMIPS主要用于测整数计算能力,基于Dhrystone这样一种测试方法下的MIPS

①每秒处理的百万级的机器语言指令数;

②用跑分算法Dhrystone来测试CPU对整数计算的性能,输出结果是每秒运行Dhrystone的次数,即每秒钟迭代主循环的次数,比MIPS(million instructions per second 每秒钟执行的指令数)更有意义。

一般芯片都有DMIPS/MHz信息,比如ARM Cortex-A53架构为2.3DMIPS/MHz,那么可以计算出:

双核A53架构,主频为1.6GHz的CPU,DMIPS为:2 * 1600MHz * 2.3 DMIPS/MHz = 7360 DMIPS;
四核A53架构,主频为1.6GHz的CPU,DMIPS为:4 * 1600MHz * 2.3 DMIPS/MHz = 14720 DMIPS;

芯片介绍


1、分类


①通用芯片(灵活性好):CPU/MPU,GPU,DSP,就像“银行柜员”;
②定制化芯片(效率高):FPGA,ASIC,就像“银行ATM机器”。

2、各芯片区别


CPU

中央处理器:与GPU(图形处理单元/显卡)区别在于核数,CPU(CPU的运算核心一般是ARM核,ARM是可以支持Android和iOS的架构)核数不超2位数,每个核有大缓存能处理复杂的逻辑运算控制,CPU擅长复杂计算步骤和复杂数据依赖的计算任务,更适合串行算法,如分布式计算、数据压缩、人工智能、物理模拟等;GPU的核数远远超过CPU,GPU有几百个核,但每个核的缓存相对小且处理简单的逻辑运算控制,更适合并行算法,GPU计算常用的数据类型有FP32、FP16、INT8,处理图像运算等;CPU和GPU都有工作频率,工作频率越高,性能越高,同时发热和功耗越高;

DSP

数字信号处理芯片:DSP是一种电信技术,用于对数字信号进行处理,如滤波、信号检测、信号分离等。它通常使用专用硬件和软件来实现,是一种特殊的CPU,针对视频解编码,通讯信号的处理优于CPU,处理语音解编码等,拍照以及回显(JPEG的编解码)、录像以及回放(Video 的编解码)、H.264的编解码等,DSP是将模拟信号转为数字信号,DSP目标是:图像信息的实用性,即:图像的识别、录制、压缩、保存等等,DSP包含ISP,相对于ISP,DSP的功能更强大。

注意ISP(图像信号处理器):用来处理图像传感器经过CCD或CMOS的形式采集的输出数据,如做AEC(自动曝光控制)、AGC(自动增益控制)、AWB(自动白平衡)、色彩校正、Lens Shading、Gamma 校正、祛除坏点、Auto Black Level、Auto White Level 等功能的处理,ISP目标是:为了图像信息的丰富性,即:图像的完整性、色彩的丰富性等等;

另外用大屏驱动扬声器来举例:

例1:驱动少部分扬声器,功率不大,那么用大屏控制器直接驱动,从MCU传输给DSP((DSP输出(模拟信号)幅值小(4根线)),容易收到干扰,无法直接驱动扬声器,需要在DSP输出后再经过功放(放大器AMP)模块,再连接到扬声器

例2:如果驱动多个扬声器(如21个),外部有单独的功放控制器,音频信号通过外置功放实现,那么在大屏中音频信号直接从DSP输出(模拟信号)幅值小(4根线),容易收到干扰,无法到达外部功放就被淹没,因此大屏内要内嵌A2B芯片以A2B信号传输(输出AP、AN两根线信号)或以太网传输给外置功放控制器

③CODEC

coder-decoder,多媒体数字信号编解码器,用于声音的识别和输出,它是一种电信技术,用于将音频、视频或数据进行编码和解码。它可以压缩音频和视频数据,使其占用更少的带宽,并在传输过程中保持质量

运用在声卡上就是指可将模拟讯号转成数字信号,及将数字讯号还原成模拟信号的组件,CODEC从早期嵌入音效芯片到后来从音效芯片中独立出来,如此在音质上便不会受到音效芯片中线路干扰的影响。声卡的声音品质与CODEC有相当密切的关系,不过目前应用在多声道声卡上的CODEC大概就属Sigmatel及Wolfson这二家的产品最普遍,所以在品质上也就没有强烈的区别。

CODEC最主要的工作有二个,第一个就是将由外界录进来的声波,从模拟转成为数字的讯号交由MCU处理,不论是从Mic In或是Line In先经过A2B信号传输进来,再将录进来的模拟讯号传输给CODEC,才能够让MCU识别;另一个则是反向的流程工作,也就是将储存在MCU中的数字音讯资料,透过CODEC还原成模拟的声音,由Line Out或是多声道声卡的各声道输出口送出讯号。

如下图所示,DSP先做进行内容分析、滤镜、提取等多种应用工作,再到CODEC进行AD/DA转换以及编解码工作。

FPGA

半定制化的可编程电路,省去了CPU的取指和译码,因此重复运行相同代码效率高,FPGA上大部分是计算单元ALU,但也可以控制被编程的指令,未编程过的指令难以控制,FPGA可以实现一个DSP,GPU甚至是CPU功能;

ASIC

完全固化的IC,没有具体定义,可以是除单片机、DSP、FPGA之类能叫出名之外的IC,ASIC也发展为半定制专用集成电路,接近FPGA,FPGA是ASIC中的一部分

MCU

微控制器/单片机,不是微处理器(MPU是微处理器),他是在芯片上集成了CPU、IO、定时器、看门狗、flash等

SOC

系统级芯片,通过HDL语言在SOC内集成各种功能芯片,可能集成GPS、WiFi、蓝牙、DSP等多种不同的SOC

APU

也叫MAP,应用处理器,类似于SOC,集成了CPU、DSP、ASIC等,也是用ARM,适用于便携式消费类电子,如手机、电脑、智能穿戴、汽车智能显示屏等

NPU

神经网络处理器,也就是AI芯片,具备智能和学习特性,会模仿人的大脑神经网络,用于人工智能算法,适合处理视频、图像类海量多媒体数据

DPU

深度学习处理器,基于Xilinx可重构特性的FPGA芯片,DPU可以机器学习、安全、电信和存储等应用

TPU

张量处理器,由谷歌专门为加速深层神经网络运算能力而研发的一款芯片,也是一款ASIC

⑫BPU

大脑处理器,地平线机器人以BPU来命名自家的AI芯片,用来支撑深度神经网络,一旦生产无法再编,必须在CPU控制下使用,BPU已被地平线申请了注册商标

DDR

Double Data Rate,双倍速率同步动态随机存储器,DRAM的运行大小和运行速度没有直接的关系,但内存越大同时运行的程序更多、可运行更大的程序,当正运行程序的数据量接近于内存大小,内存大小将直接影响设备的运行速度,简单来说,DDR的大小决定了系统运行速度,目前行业发展到DDR5

 这里先普及一个概念,1Byte=8bit。比如我们看到一个DDR描述,海力士的DDR3,H5TC2G63GFR-PBK2Gb(128M*16),这颗DDR3的容量大小就是256MByte=2Gbit,而我们产品上经常标记的是Byte为单位的,所以如果一个手机的配置是1GBDDR,那么就需要使用这样的4颗DDR3才能达到1GB。

大屏里的应用消耗CPU占比如下:

在汽车里,可以看到中控导航、T-box、360环视、仪表,ADAS控制器这些使用的都是DDR3为主,甚至部分都是DDR2,单颗的容量普遍不高,基本上是2Gbit和4Gbit,只有个别的采用了LPDDR3

 

 一颗CPU,同时输出给液晶仪表、中控娱乐、或者增加一个HUD或者后排娱乐屏的需求,此时由于不同的系统等级要求,需要液晶仪表那边是RTOS实时操作系统(Linux或QNX),而中控娱乐这边需要更多的灵活应用和布局(Android),所以目前主流的都是使用QNX的hypervison,CPU及外部硬件资源通过QNXHypervisor虚拟化共享,这个时候DDR的资源就显得尤为重要了,不再是简单的1+1>2的关系,必须要考虑到一定的冗余量,此时的DDR配置至少需要4GB,如果中控娱乐导航中有高清图像、车联网、APP相关应用,此时还需要考虑到8GB的配置

域控制除了要考虑容量,还要考虑DDR的带宽,CPU的DDR带宽能力越强,相同情况下处理的数据量越大

 如果处理不压缩的图像数据,4K的图像数据有多少,3840*2160*24bit*60fps=11943936000bits=1.39GB/s,处理一个4K的图像数据就需要这多大的数据量,而且允许占的内存带宽还会更大,因此分辨率要求高,而且图像刷新率又高,此时就需要DDR的带宽非常大

例如DDR4带宽计算方法:按照容量计算单颗芯片是=512MBX32bit÷8=2GB,使用量是4颗,所以DDR的总容量是8GB。

按照LPDDR4最高频率4266MHZ的速率计算,每颗DDR是32位的位宽,CPU的位宽是32X4=128bit,此时DDR的带宽=4266MBX128÷8=68.25G/S。

智能座舱之存储篇第四篇---武林高手DDR上篇-有驾

⑭EMMC

Embedded Multi Media Card,内嵌式存储器,一般用来存储底层软件、仪表UI图片、缓存视频、音频等

 从以上数据来看最大的部分是离线地图,如果是高清地图数据这部分接近10个G,如果安装一些应用,比如喜马拉雅、蜻蜓FM等等,这部分还需要预留给客户下载数据的空间,否则用户按照了这个应用也无法本地下载缓存,只能在线收听,这个是很不好的体验,所以正常情况下的中控导航主机的eMMC的容量普遍是32G。

从目前来看车载网关这部分的预留数据需要蛮大的,需要预留为后续的升级数据进行预留,而且还有可能下载高清地图的需求,所以至少16GEMMC容量才能满足。

而ADAS这部分处理雷达、图像等数据部分的控制器,主要是图像数据比较大,至少需要8-16GEMMC,仪表部分无论怎么样,其实处理的数据蛮少的,所以这部分的容量8G其实是已经绰绰有余的,不会把容量往上上升。

目前变数最大的就是中控导航这部分了,如果车联网的应用都集中在这部分,这个时候相当于手机要安装很多不同的APP,而且还有高清导航地图等数据,此时至少要128G以上的存储才能满足应用需求,甚至高达512G。

现在手机的接口都从eMMC到UFS接口了,后续车载电子也会从eMMC接口变更到UFS接口

 上图就是UFS接口和eMMC接口的区别,内核都是NANDflash,在控制接口不同协议,通讯的速度eMMC最大速度是400MB/s,而UFS接口通讯最大速度是1160MB/s。

速度越快的优势也就越大,液晶仪表需要在开机的时候最快能够输出界面给用户,目前赛普拉斯的平台可以做到开机时间为0.7S,中控导航在用户点火倒车后需要在1.5S之内给用户输出倒车的图像。

UF2.1在850MB/s通讯速度下,比QSPINORFLASH的速度54MB/s要快10倍以上,此时启动64MB的boot区域的数据只需要115ms,也就是0.1S,而使用NORFLASH需要1185ms,需要1.1S的时间,这个体验是极致的提升,这个仅仅是在开机速度,而且在文件或者音视频存储的时候也能更用户非常好的体验,比如你录制的一个比较大的视频,如果半天转圈不能存储下来,这个是非常影响用户体验的。

目前主要是UF2.0为主,而后续如果到了自动驾驶这一款,此时就需要PCIE4.0接口的速度,这个时候很多图像原始数据都是存储在SSD的存储里面(类似于电脑的固态硬盘),每个模块都可以去访问这个接口,图像数据需要快速的能够读取出来给处理器进行数据处理。

行车记录仪(DVR)中的TF卡后续会被EMMC替代

智能座舱之存储篇终篇---EMMC在车载上的趋势-有驾

3、其他芯片

APU:Accelerated Processing Unit, 加速处理器,AMD公司推出加速图像处理芯片产品;

EPU:Emotion Processing Unit 情感处理器,号称是全球首款情绪合成(emotion synthesis)引擎,可以让机器人具有情绪;

FPU:Floating Processing Unit 浮点计算器,浮点单元;

HPU:Holographics Processing Unit 全息图像处理器,Microsoft 专为自家 Hololens 应用开发的;

IPU:Intelligence Processing Unit,智能处理器, Deep Mind投资的Graphcore公司出品的AI处理器产品;

KPU:Knowledge Processing Unit,知识处理器,嘉楠耘智(canaan)号称 2017 年将发布自己的 AI 芯片 KPU;

OPU:Optical-Flow Processing Unit。光流处理器;

PPU:Physical Processing Unit。物理处理器,物理计算,就是模拟一个物体在真实世界中应该符合的物理定律;

QPU:Quantum Processing Unit,量子处理器;

UPU:Universe Processing Unit。宇宙处理器;

VPU:Vector Processing Unit 矢量处理器,Intel收购的Movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心;

WPU:Wearable Processing Unit, 可穿戴处理器,一家印度公司Ineda Systems公司推出的可穿戴片上系统产品,包含GPU/MIPS CPU等IP;

XPU:百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速,含256核,百度公开了其 FPGA Accelerator 的名字,就叫 XPU;

ZPU:由挪威Zylin 公司推出的一款32位开源处理器。

资料参考:

数字芯片之系统级芯片SoC - 知乎

数字芯片之应用处理器APU(上) - 知乎

GPU,CPU,SOC,DSP,FPGA,ASIC,MCU,MPU,GPP,ECU都是啥子芯片? - 知乎

通俗来理解ARM芯片内核,架构,指令集,软核和硬核之间的关系 - 百度文库

一文搞懂CPU、MPU、MCU、SOC的联系与区别-电子发烧友网

芯片模型算力指标TOPS FLOPS MAC MACC MADD关系_芯片算力tops对比_李皮皮的悲惨生活的博客-CSDN博客

百度安全验证

ISP和DSP的区别_LIAO_ww的博客-CSDN博客_dsp isp

如何计算CPU的DMIPS_dmips计算公式_leon1741的博客-CSDN博客

智能座舱之存储篇第四篇---武林高手DDR上篇-有驾

智能座舱之存储篇终篇---EMMC在车载上的趋势-有驾

什么是CODEC?

codec和DSP的区别_十三木的博客-CSDN博客

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/669209
推荐阅读
相关标签
  

闽ICP备14008679号