1. 程式人生 > 程式設計 >C++中double浮點數精度丟失的深入分析

C++中double浮點數精度丟失的深入分析

看了一篇關於C/C++浮點數的博文,在Win32下,把int,指標地址,long等4位元組整數賦給一個double後,再用該double數賦給原始型別的數,得到的結果於最初的數值一致,即不存在任何精度丟失。例如下面的結果將總是true:

 long a=123456; //assign any long number here
 double db=a;
 long b=db;
 printf("%s\n",a==b?"true":"false");

但是對於long long或win64下的指標地址等8位元組整數將存在精度丟失,於是對這方面做了一個簡單的測試:

#include<iostream>
#include<stdlib.h>

void showEncodeOfDouble(unsigned char* db){

 const int ByteLength=8; 
 for(int i=ByteLength-1;i>=0;i--) 
  printf(" %.2x",db[i]);

 printf("\n");

}


int main(){
 
 unsigned long long maxULL=0xffffffffffffffff; //2^64-1=18446744073709551615,//max unsigned long long
 printf("%llu\n",maxULL);

 double d1=maxULL;        //20bit Significant,Precision Loss 
 printf("%f\n",d1);      

 maxULL=d1;
 printf("%llu\n",maxULL);
 
 showEncodeOfDouble((unsigned char*)&d1);

 system("pause");
 return 0;
}

輸出的結果如下(visual studio,win32):

18446744073709551615
18446744073709552000.000000
9223372036854775808
43 f0 00 00 00 00 00 00

至此,有兩點疑問(暫時不理會程式碼中showEncodeOfDouble的結果):

1)為什麼丟失精度後得到的double數是18446744073709552000.000000?
2)為什麼將double數重新轉化為unsigned long long後得到的數又和double不一致呢?

對於這兩個問題,需要對C++浮點數的規格有一定的瞭解。

1 IEEE浮點標準

C/C++採用的是IEEE浮點標準,它以“二進位制的科學表示法”表示一個小數:

C++中double浮點數精度丟失的深入分析

其中M是一個整數部分僅有一位的二進位制小數,例如1.011,表示十進位制下的1.375。E表示該小數以2為底時的階數。基於以上的表示方式,小數需要對三部分進行編碼:表示符號的s,及階碼E、尾數碼M。C++中的double型別三種編碼所佔的位數如圖所示。

C++中double浮點數精度丟失的深入分析

53位尾數碼所能達到的精度為53二進位制位,約為16 個十進位制位( 53 log10(2) ≈ 15.955) [1],尾數碼的編碼中還有一個隱含的開頭整數位1(或0,當11位階碼全0時)因此實際中可得15-17位十進位制的精度。當有效位數最多15位的十進位制數轉換成double然後重新轉換為原來的十進位制型別時,數值保持一致;另一方面,將一個double數轉化為可以容納17位以上有效數字的十進位制數再重新轉化為double,結果數值也保持一致。

這就解釋了為什麼4位元組的整數轉化為double重新轉化能保持一致(2^32=4294967296僅10個有效位),而8位元組的整數卻可能丟失精度(2^64-1=18446744073709551615共20個有效位)。但第一個問題中整數丟失精度後轉化成的double數值是怎麼來的呢,這需要了解C++階碼和尾數對於double數值的意義。

2 階碼編碼和尾數編碼

在階碼編碼中,有一個常數偏置量Bias=1023,假設11位階碼所代表的無符號整數值為e,

1)若e不為0(11位全為1時用於表示特殊數字,此處不討論),則double數值為

C++中double浮點數精度丟失的深入分析

2)若e=0,則小數值為

C++中double浮點數精度丟失的深入分析

那麼,可以看函式showEncodeOfDouble了,它的作用是將一個double數的編碼按位元組打印出來(左邊是高位元組),按其列印結果按照上面計算,可知double編碼值表示的數值是2^64,這是合理的,當把精度較高的整數轉化為double時,C++採用向偶數舍入的方式得到最接近的值[2]。至於打印出的結果,屬於C++浮點數列印中的細節問題。

3 C++浮點數列印

許多C/C++的庫中在輸出double時,通常有意使得輸出結果簡短些(即使設定了足夠多的可見位數),以避免較大位數的輸出。直接使用C中的printf或cout列印double數時,列印顯示的結果也有可能是帶有精度丟失的結果,可使用16進位制的方式打印出更精確的double:

printf("%a\n",d1);

得到的輸出結果為:

0x1.000000p+64

至此問題1實際上只是C++中,將高精度整數轉double時的偶數舍入問題。

對於問題2,從float或double轉換成int,值將會被向零舍入.例如1.999將被轉換成1而-1.999將會被轉換成-1。進一步來說,值有可能會溢位。C語言標準沒有對這種情況指出固定的結果,這種轉換行為是無定義的。

參考連結:

[1] http://en.wikipedia.org/wiki/Double-precision_floating-point_format#cite_note-whyieee-1

[2]深入理解計算機系統,Randal E. Bryant,機械工業出版社

[3]http://stackoverflow.com/questions/4738768/printing-double-without-losing-precision

到此這篇關於C++中double浮點數精度丟失的深入分析的文章就介紹到這了,更多相關C++ double浮點數精度丟失內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!