浮点数也就是小数点浮动的数,但是因为在计算机中使二进制表示,不同长度有不同的精度。三种常用的浮点数的格式:半精度(float16)、单精度(float32)、双精度(float64)
- Value=sign*exponent*fraction
- 数值=符号位*指数位*小数位
区别在于指数位和小数位的长度的差异;这样近似值其实也就是有理数的表示方法;
半精度表示π,最大值和最小值:
单精度表示π,最大值和最小值:
双精度表示π,最大值和最小值:
Bfloat16
最近还诞生了一种Bfloat16的计数方式,使用和半精度相同的位数,实现了保持和单精度一样的指数位也就是8位指数位,可以表示和单精度相同的数字范围,但是牺牲了小数位也就是精度。
参考文献:
双-单-半精度浮点数的细节
原文:https://www.cnblogs.com/kongchung/p/12535798.html