赞
踩
浮点数是一种数据类型,指有小数点的实数。以二进制存储在计算机中时,包括符号位,指数位和小数位(尾数位)。
浮点型数据分为:单精度(float,4字节,32比特)与双精度(double,8字节,64位比特)
不同于定点数,浮点型数据以二进制存储在计算机中,因此计算时一般都是有误差,都是近似。(一般期望两个浮点型的误差相互抵消,所以一般使用同类型的浮点数进行相互计算)
例:0.1用二进制表示,将是一个无限循环小数,因此会出现舍入误差,造成精度损失。
进制相互转换:
1)整数十进制转化为二进制:除2取余数
2)小数位十进制转化为二进制:乘2取整数(对0.125求二进制:0.125 乘以 2 等于 0.25,整数位为0;0.25乘以2为0.5,整数为0,0.5乘以2等于1,整数位为1,所以停止运算。0.125的二进制为0.001。)
3)小数位二进制转化为十进制:小数点后第一位上的二进制数字乘以2的负一次方加上第二位上的二进制数字乘以2的负二次方,以此类推。
浮点型数据如何存储:
float为32比特,三个部分组成。第1位表示符号(正负),第2到第9位表示指数,后23位表示尾数。
以float 2.5为例:
2的二进制为10,0.5的二进制为1,因此2.5的二进制为10.1,可以改写为1.01 x 2^1。所以尾数部分为0100 0000 0000 0000 0000 000,共23位。指数为1,偏移量为127,所以指数部分需要1 + 127 = 128的二进制,即 10000000.所以float2.5保存在计算机中为:0 10000000 01000000000000000000000 。
(为什么还要加上偏移量127。因为指数部分为8比特,即0-255,但指数还存在正负,所以为-127-128,为了同时表示正负指数以及它们的大小,所以需要加上127)
double类型为64比特,计算方法与float类似,只不过指数的偏移量为1023
5的特殊情况:比如float 16777216,它与0.1类似,尾数超出了计算机存储的限制。
16777216 = 1.000000000000000000000001 x 2^24。可以发现尾数有24位,但float的尾数只能存储23位,所以存储时最后一个1就舍去了,造成精度问题。但指数位置保存的数24,所以在计算时会默认那个被抛弃的尾数当0处理,所以存储的值和你认为的值是存在误差的
由上述5,6可知,无论是float,还是double都有一个取值范围。
float的有效数字为一般7位,即由于尾数位的限制,单精度浮点数通常能够保证大约7位十进制数的精度。(并不是说当float有效数字为8位时,一定会出现精度问题,只是最好是7位)
double一般为15位
float与double区别:
double类型精度高,范围大,但时存储和计算效率相较于float会差一些。因此在处理大量数据时,float性能会更好,更有效率。而我们一般使用float就够了,数值的范围不需要那么大
在这个算力紧缺的时代,需要在精度与性能之间做取舍。
NV(nvidia)白皮书推出FP32,TF32,FP16,BF16都是存储浮点型数据的新数据类型(FP32就是float),通过牺牲精度于范围来提升性能。与单精度浮点型相比吗,它们只需要一半的存储空间和带宽。
NV推出的这几个新数据类型也只是在位的分配上有所不同:1)通过缩小指数位位宽来降低数值范围 。2)通过缩小尾数位宽来缩小精度范围。从而降低了整个深度学习计算负载的大小。
常被广泛使用,舍弃一点精度可以换取计算效率的大幅度上升,而不影响推理结果
在深度学习计算里,范围比精度要重要得多,于是有了BF16,牺牲了精度,保持和 FP32 差不多的范围(指数都是8位),而TF32的设计,在于即汲取了BF16的好处,又保持了一定程度对主流 FP32 的兼容,与BF16一样,FP32只要截断就是TF32 了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。