C++ 之浮点数的大小比较

创建时间：2015-04-08 投稿人：浏览次数：176

摘要

本文首先将介绍浮点数的存储结构以及 (int&) 操作含义。其次，介绍常规浮点数比较方法。最后本文，将采用 (int&) 转换为整型数据，直接比较转换为的整形数据的大小。

1. 浮点数的存储结构

十进制 1.35

二进制 0 000 0000 0 010 1100 1100 1100 1100 1100

符号位 2的n次幂二进制小数中小数点后23位

符号位，1为负，0为正。

2的n次幂，二进制小数的科学计数法当然是写成：1.01011×2^n，这里就是 n 值。

二进制小数中小数点后 23 位，十进制数换算成二进制数后，表示成科学计数法如上所示，此处就是取点后 23 位数，而小数点前只有一位有效数字，当然就总是1了，比如二进制小数 0.001010 ,表示为二进制科学计数法为 1.010×2^-3 。X86架构下，浮点数 (int&) 操作含义在内存中以低位在前高位在后的方法存储的。

2. (int&) 操作

(int&a) 是与 *((int*)&a) 等价的，意思都是将 &a 这个地址上的 32 位看成 int 型，即使存储在这里的可能不是 int 型数据。

与(int)a 比较，（int ）a 实际上是以浮点数a为参数构造了一个整型数。

(int&)a 则是告诉编译器将a当作整数看（并没有做任何实质上的转换）。

因为，以整数形式存放和以浮点形式存放其内存数据是不一样的，因此两者不等。

3. 常规方法

在数学运算当中经常会涉及到判断两个数是否相等的情况，对于整数很好处理 A==B这样的一个语句就可以解决全部的问题，但是对于浮点数是不同的。

首先，浮点数在计算机当中的二进制表达方式就决定了大多数浮点数都是无法精确的表达。现在的计算机大部分都是数字计算机，不是模拟机，数字机的离散化的数据表示方法自然无法精确表达大部分的数据量的。
其次计算机浮点数的精度在单精度float类型下，只有7位，在进行浮点运算的时候，这个精度往往会导致运算的结果和实际期望的结果之间有误差。因为前两个原因，我们很难用 A==B来判定两个浮点数是否相同。

很自然，我们可以想到 fabs(A-B) < epsilon 这样的一种判别方法
但是这种判别方法稳妥吗？
它也不稳妥。

首先， epsilon是一个绝对的数据，也就是误差分析当中说说的绝对误差。使用一个固定的数值，对于float类型可以表达的整个数域来说是不可以的。比如epsilon取值为0.0001，而a和b的数值大小也是0.0001附近的，那么显然不合适。另外对于a和b大小是10000这样的数据的时候，它也不合适，因为10000和10001也可以认为是相等的呢？适合它的情况只是a或者b在1或者0附近的时候

既然绝对误差不可以，那么自然的我们就会想到了相对误差

bool IsEqual(float a, float b, float relError )
{
return ( fabs ( (a-b)/a ) < relError ) ? true : false;
}

这样写还不完善，因为是拿固定的第一个参数做比较的，那么在调用IsEqual(a, b, relError ) 和 IsEqual(b, a, relError ) 的时候，可能得到不同的结果。同时如果第一个参数是0的话，就有可能是除0溢出。这个可以改造把除数选取为a和b当中绝对数值较大的即可。

bool IsEqual(float a, float b, float relError )
{
if (fabs(a)<fabs(b)) return ( fabs((a-b)/b) < relError ) ? true : false;
else return (fabs( (a-b)/a) < relError ) ? true : false;
}

使用相对误差就很完善吗？
也不是，在某些特殊情况下，相对误差也不能代表全部。比如，在判断空间三点是否共线的时候，使用判断点到另外两个点形成的线段的距离的方法的时候
只用相对误差是不够的，应为线段距离可能很短也可能很长，点到线段的距离以及线段的长度做综合比较的时候，需要相对误差和绝对误差结合的方式才可以。

相对完整的比较算法应该如下（？？？）：
bool IsEqual(float a, float b, float absError, float relError )
{
if (a==b) return true;
if (fabs(a-b)<absError ) return true;
if ( fabs(a)<fabs(b) ) return (fabs((a-b)/b)<relError ) ? true : false;
else return (fabs((a-b)/a)<relError ) ? true : false;
}
这样才相对完整。

4. （int&）操作实现浮点数比较

4.1 回顾浮点数存储结构

IEEE的标准，浮点数的定义如下

	符号位	指数位	小数部分	指数偏移量
单精度浮点数	1 位[31]	8位 [30-23]	23位 [22-00]	127
双精度浮点数	1 位[63]	11 位[62-52]	52 位[51-00]	1023

我们以单精度浮点数来说明：

符号位，表述浮点数的正或者负

指数实际也有正负的，但是没有单独的符号位，而是采用了一个偏移来表示

在计算机的世界里，进位都是二进制的，指数表示的也是2的N次幂

这个数据格式当中的，指数是8位，可表达的范围是0到255，而对应的实际的指数是－127到＋128。这里特殊说明，－127和＋128这两个数据在IEEE当中是保留的用作多种用途的。－127表示的数字是0，128和其他位数组合表示多种意义，最典型的就是NAN状态。

小数部分，并不是一个浮点数的实际的小数。实际的小数在这个小数前面还保留了一个1。拿浮点数1.0来说，符号位是0，实际指数是0，对应这里的指数就是127了，也就是0x7f。而小数部分就是1.0了， 1是暗含的不存储，实际的小数部分就是0了。因此组合起来的数据就是，0x3f80000 。

可以用一个类来表示：

class FloatType 
{
public:
      union {
         DWORD m_dwInt;
         float          m_fFloat;
       struct {  

        int    m_nFra: 23;

          int    m_nExp : 8;

          bool m_bSign : 1;

      };
};

4.2 操作举例

4.2.1 源代码

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

上一篇： C语言浮点数比较大小
下一篇： COMP-1及COMP-2内部存储解析

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...

C++ 之 浮点数的大小比较

C++ 之浮点数的大小比较