evol128[Blog]

I am the bone of my code

[扫盲]为什么浮点数运算会有误差

在开始阅读本文之前,请猜测一下下面程序的输出结果:

float a=0.0f;
for(int i=0;i<10;i++){
    a+=0.1;
}
cout<<(a==1.0);

true? You're too young, too simple, sometimes naive.

虽然乍看上去很不可思议,但是0.1叠加10遍的确是和1.0不等的。这种诡异的情况是由于浮点数的计算误差引起的。

既然是扫盲贴,我就稍微罗嗦一点,先从浮点数的格式讲起吧。

在IEEE标准中,浮点数是由符号位(1 bit),指数位(8 bits of float and 11 bits of double)以及精度位(23 bits of float and 52bits of double)组成的。

不放假设符号位是sym,指数位是exp,精度位是pre,那么一个浮点数的值就等于(sym==1? - : +) 1.pre * 2^(exp-2^k)。其中,k=指数位的位数-1,即是说,k=7 of float, k=10 of double。

举个例子1 10000001 11010010001000000000000表示一个float number,它的值是-1.11010010001000000000000*2^(129-2^7) = -1.11010010001000000000000*2。

但是,2进制的浮点数表示有一个很大的问题——它并不可以精确表示所有实数。说得更准确一点,只有可以写成2^a+2^b+2^c+...这种形式并且精度不能太多的实数才可以用浮点数来精确表示。而大多数实数仅仅保存了一个四舍五入后的近似值而已。譬如,0.1在单精度浮点数中实际值为0.100000001490116119384765625。

正是这种非精确的表示形式,造成了浮点数运算的误差。不管加减乘除,只要涉及到了浮点数,你都得心里清楚:结果不是精确值,只是近似罢了。所以,在浮点数的运算中,请尽量避免用==比较结果,可以用 a+b<某个很小的数 来代替。

顺带提一下,0和无穷大在浮点数中是可以精确表示的,IEEE规定,除了符号位外全0表示0,除符号位全1表示正负无穷。

好吧,把话题扯回来。由于浮点数运算有误差,浮点数的四则运算不具备结合律分配率

看一个wiki上的例子:

 a = 1234.567, b = 45.67834, c = 0.0004
 

 (a + b) + c:
     1234.567   (a)
   +   45.67834 (b)
   ____________
     1280.24534   rounds to   1280.245


    1280.245  (a + b)
   +   0.0004 (c)
   ____________
    1280.2454   rounds to   1280.245  <--- (a + b) + c
 

 a + (b + c):
   45.67834 (b)
 +  0.0004  (c)
 ____________
   45.67874
     45.67874 (b + c)
 + 1234.567   (a)
 ____________
   1280.24574   rounds to   1280.246 <--- a + (b + c)

 

另一个例子:

 1234.567 × 3.333333 = 4115.223
 1.234567 × 3.333333 = 4.115223
                       4115.223 + 4.115223 = 4119.338
 but
 1234.567 + 1.234567 = 1235.802
                       1235.802 × 3.333333 = 4119.340

 

总结:懒得写。非要说点什么的话,谢谢大家捧场^_^

Reference: http://en.wikipedia.org/wiki/Floating_point