[扫盲]为什么浮点数运算会有误差
在开始阅读本文之前,请猜测一下下面程序的输出结果:
float a=0.0f; for(int i=0;i<10;i++){ a+=0.1; } cout<<(a==1.0);
true? You're too young, too simple, sometimes naive.
虽然乍看上去很不可思议,但是0.1叠加10遍的确是和1.0不等的。这种诡异的情况是由于浮点数的计算误差引起的。
既然是扫盲贴,我就稍微罗嗦一点,先从浮点数的格式讲起吧。
在IEEE标准中,浮点数是由符号位(1 bit),指数位(8 bits of float and 11 bits of double)以及精度位(23 bits of float and 52bits of double)组成的。
不放假设符号位是sym,指数位是exp,精度位是pre,那么一个浮点数的值就等于(sym==1? - : +) 1.pre * 2^(exp-2^k)。其中,k=指数位的位数-1,即是说,k=7 of float, k=10 of double。
举个例子1 10000001 11010010001000000000000表示一个float number,它的值是-1.11010010001000000000000*2^(129-2^7) = -1.11010010001000000000000*2。
但是,2进制的浮点数表示有一个很大的问题——它并不可以精确表示所有实数。说得更准确一点,只有可以写成2^a+2^b+2^c+...这种形式并且精度不能太多的实数才可以用浮点数来精确表示。而大多数实数仅仅保存了一个四舍五入后的近似值而已。譬如,0.1在单精度浮点数中实际值为0.100000001490116119384765625。
正是这种非精确的表示形式,造成了浮点数运算的误差。不管加减乘除,只要涉及到了浮点数,你都得心里清楚:结果不是精确值,只是近似罢了。所以,在浮点数的运算中,请尽量避免用==比较结果,可以用 a+b<某个很小的数 来代替。
顺带提一下,0和无穷大在浮点数中是可以精确表示的,IEEE规定,除了符号位外全0表示0,除符号位全1表示正负无穷。
好吧,把话题扯回来。由于浮点数运算有误差,浮点数的四则运算不具备结合律和分配率。
看一个wiki上的例子:
a = 1234.567, b = 45.67834, c = 0.0004
(a + b) + c:
1234.567 (a)
+ 45.67834 (b)
____________
1280.24534 rounds to 1280.245
1280.245 (a + b)
+ 0.0004 (c)
____________
1280.2454 rounds to 1280.245 <--- (a + b) + c
a + (b + c):
45.67834 (b)
+ 0.0004 (c)
____________
45.67874
45.67874 (b + c)
+ 1234.567 (a)
____________
1280.24574 rounds to 1280.246 <--- a + (b + c)
另一个例子:
1234.567 × 3.333333 = 4115.223
1.234567 × 3.333333 = 4.115223
4115.223 + 4.115223 = 4119.338
but
1234.567 + 1.234567 = 1235.802
1235.802 × 3.333333 = 4119.340
总结:懒得写。非要说点什么的话,谢谢大家捧场^_^
Reference: http://en.wikipedia.org/wiki/Floating_point