C++ 之 浮点数的大小比较
摘要
本文首先 将 介绍 浮点数 的 存储结构 以及 (int&) 操作 含义。其次,介绍 常规 浮点数比较 方法。最后 本文,将采用 (int&) 转换为 整型 数据 ,直接比较 转换为的 整形数据 的 大小。
1. 浮点数 的 存储结构
十进制 1.35
二进制 0 000 0000 0 010 1100 1100 1100 1100 1100
符号位 2的n次幂 二进制小数中小数点后23位
符号位,1为负,0为正。
2的n次幂,二进制小数的科学计数法当然是写成:1.01011×2^n,这里就是 n 值。
二进制小数中小数点后 23 位,十进制数换算成二进制数后,表示成科学计数法如上所示,此处就是取点后 23 位数,而小数点前只有一位有效数字,当然就总是1了,比如二进制小数 0.001010 ,表示为二进制科学计数法为 1.010×2^-3 。X86架构下,浮点数 (int&) 操作 含义在内存中以低位在前高位在后的方法存储的。
2. (int&) 操作(int&a) 是与 *((int*)&a) 等价的,意思都是将 &a 这个地址上的 32 位看成 int 型,即使存储在这里的可能不是 int 型数据 。
与(int)a 比较 ,(int )a 实际上是以浮点数a为参数构造了一个整型数 。
(int&)a 则是告诉编译器将a当作整数看(并没有做任何实质上的转换)。
因为,以整数形式存放和以浮点形式存放其内存数据是不一样的,因此两者不等。
3. 常规方法
在数学运算当中经常会涉及到判断两个数是否相等的情况,对于整数很好处理 A==B这样的一个语句就可以解决全部的问题,但是对于浮点数是不同的。
首先,浮点数在计算机当中的二进制表达方式就决定了大多数浮点数都是无法精确的表达。现在的计算机大部分都是数字计算机,不是模拟机,数字机的离散化的数据表示方法自然无法精确表达大部分的数据量的。
其次计算机浮点数的精度在单精度float类型下,只有7位,在进行浮点运算的时候,这个精度往往会导致运算的结果和实际期望的结果之间有误差。因为前两个原因,我们很难用 A==B来判定两个浮点数是否相同。
很自然,我们可以想到 fabs(A-B) < epsilon 这样的一种判别方法
但是这种判别方法稳妥吗?
它也不稳妥。
首先, epsilon是一个绝对的数据,也就是误差分析当中说说的绝对误差。使用一个固定的数值,对于float类型可以表达的整个数域来说是不可以的。比如epsilon取值为0.0001,而a和b的数值大小也是0.0001附近的,那么显然不合适。另外对于a和b大小是10000这样的数据的时候,它也不合适,因为10000和10001也可以认为是相等的呢?适合它的情况只是a或者b在1或者0附近的时候
既然绝对误差不可以,那么自然的我们就会想到了相对误差
bool IsEqual(float a, float b, float relError )
{
return ( fabs ( (a-b)/a ) < relError ) ? true : false;
}
这样写还不完善,因为是拿固定的第一个参数做比较的,那么在调用IsEqual(a, b, relError ) 和 IsEqual(b, a, relError ) 的时候,可能得到不同的结果。同时如果第一个参数是0的话,就有可能是除0溢出。这个可以改造把除数选取为a和b当中绝对数值较大的即可 。
bool IsEqual(float a, float b, float relError )
{
if (fabs(a)<fabs(b)) return ( fabs((a-b)/b) < relError ) ? true : false;
else return (fabs( (a-b)/a) < relError ) ? true : false;
}
使用相对误差就很完善吗?
也不是, 在某些特殊情况下, 相对误差也不能代表全部。比如,在判断空间三点是否共线的时候,使用判断点到另外两个点形成的线段的距离的方法的时候
只用相对误差是不够的,应为线段距离可能很短也可能很长,点到线段的距离以及线段的长度做综合比较的时候,需要相对误差和绝对误差结合的方式才可以。
相对完整的比较算法应该如下(???):
bool IsEqual(float a, float b, float absError, float relError )
{
if (a==b) return true;
if (fabs(a-b)<absError ) return true;
if ( fabs(a)<fabs(b) ) return (fabs((a-b)/b)<relError ) ? true : false;
else return (fabs((a-b)/a)<relError ) ? true : false;
}
这样才相对完整。
4. (int&) 操作 实现 浮点数 比较
4.1 回顾 浮点数 存储结构
IEEE的标准,浮点数的定义如下
符号位 | 指数位 | 小数部分 | 指数偏移量 | |
---|---|---|---|---|
单精度浮点数 | 1 位[31] | 8位 [30-23] | 23位 [22-00] | 127 |
双精度浮点数 | 1 位[63] | 11 位[62-52] | 52 位[51-00] | 1023 |
我们以单精度浮点数来说明:
符号位,表述浮点数的正或者负
指数实际也有正负的,但是没有单独的符号位,而是采用了一个偏移来表示
在计算机的世界里,进位都是二进制的,指数表示的也是2的N次幂
这个数据格式当中的,指数是8位,可表达的范围是0到255,而对应的实际的指数是-127到+128。这里特殊说明,-127和+128这两个数据在IEEE当中是保留的用作多种用途的。-127表示的数字是0,128和其他位数组合表示多种意义,最典型的就是NAN状态。
小数部分,并不是一个浮点数的实际的小数。实际的小数在这个小数前面还保留了一个1。拿浮点数1.0来说,符号位是0, 实际指数是0,对应这里的指数就是127了,也就是0x7f。而小数部分就是1.0了, 1是暗含的不存储,实际的小数部分就是0了。因此组合起来的数据就是,0x3f80000 。
可以用一个类来表示:
class FloatType { public: union { DWORD m_dwInt; float m_fFloat; struct { int m_nFra: 23; int m_nExp : 8; bool m_bSign : 1; }; };
4.2 操作举例
4.2.1 源代码
- 上一篇: C语言浮点数比较大小
- 下一篇: COMP-1及COMP-2内部存储解析