1. 程式人生 > >浮點數 IEEE754

浮點數 IEEE754

 

1. 什麼是浮點數?

  在計算機系統的發展過程中,曾經提出過多種方法表達實數。

  【1】典型的比如相對於浮點數的定點數(Fixed Point Number)。在這種表達方式中,小數點固定的位於實數所有數字中間的某個位置。貨幣的表達就可以使用這種方式,比如 99.00 或者 00.99 可以用於表達具有四位精度(Precision),小數點後有兩位的貨幣值。由於小數點位置固定,所以可以直接用四位數值來表達相應的數值。SQL 中的 NUMBER 資料型別就是利用定點數來定義的。

  【2】還有一種提議的表達方式為有理數表達方式,即用兩個整數的比值來表達實數。

  定點數表達法的缺點在於其形式過於僵硬,固定的小數點位置決定了固定位數的整數部分和小數部分,不利於同時表達特別大的數或者特別小的數。最終,絕大多數現代的計算機系統採納了所謂的浮點數表達方式。

  【3】浮點數表達方式, 這種表達方式利用科學計數法來表達實數,即用一個尾數(Mantissa ),一個基數(Base),一個指數(Exponent)以及一個表示正負的符號來表達實數。比如 123.45 用十進位制科學計數法可以表達為 1.2345 × 102 ,其中 1.2345 為尾數,10 為基數,2 為指數。浮點數利用指數達到了浮動小數點的效果,從而可以靈活地表達更大範圍的實數。提示: 尾數有時也稱為有效數字(Significand)。尾數實際上是有效數字的非正式說法。

  同樣的數值可以有多種浮點數表達方式,比如上面例子中的 123.45 可以表達為 12.345 × 101,0.12345 × 103 或者 1.2345 × 102。因為這種多樣性,有必要對其加以規範化以達到統一表達的目標。規範的(Normalized)浮點數表達方式具有如下形式:

  d.dd...d × βe , (0 ≤ di < β)

  其中 d.dd...d 即尾數,β 為基數,e 為指數。尾數中數字的個數稱為精度,在本文中用 p(presion) 來表示。每個數字 d 介於 0 和基數β之間,包括 0。小數點左側的數字不為 0。

(1)  基於規範表達的浮點數對應的具體值可由下面的表示式計算而得:(p是精度個數)

  ±(d0 + d1β-1 + ... + dp-1β-(p-1))βe , (0 ≤ di < β)

  對於十進位制的浮點數,即基數 β 等於 10 的浮點數而言,上面的表示式非常容易理解,也很直白。計算機內部的數值表達是基於二進位制的。從上面的表示式,我們可以知道,二進位制數同樣可以有小數點,也 同樣具有類似於十進位制的表達方式。只是此時 β 等於 2,而每個數字 d 只能在 0 和 1 之間取值。

(2)  比如二進位制數 1001.101 相當於:精度為7

   1 × 2 3 + 0 × 22 + 0 × 21 + 1 × 20 + 1 × 2-1 + 0 × 2-2 + 1 × 2-3,對應於十進位制的 9.625。

  其規範浮點數表達為 1.001101 × 23。

(3)  IEEE (美國電氣和電子工程師學會)浮點數

  計算機中是用有限的連續位元組儲存浮點數的。

  IEEE定義了多種浮點格式,但最常見的是三種類型:單精度、雙精度、擴充套件雙精度,分別適用於不同的計算要求。一般而言,單精度適合一般計算,雙精度適合科學計算,擴充套件雙精度適合高精度計算。一個遵循IEEE 754標準的系統必須支援單精度型別(強制型別)、最好也支援雙精度型別(推薦型別),至於擴充套件雙精度型別可以隨意。單精度(Single Precision)浮點數是32位(即4位元組)的,雙精度(Double Precision)浮點數是64位(即8位元組)的。

  儲存這些浮點數當然必須有特定的格式,Java 平臺上的浮點數型別 float 和 double 採納了 IEEE 754 標準中所定義的單精度 32 位浮點數和雙精度 64 位浮點數的格式。注意: Java 平臺還支援該標準定義的兩種擴充套件格式,即 float-extended-exponent 和 double-extended-exponent 擴充套件格式。這裡將不作介紹,有興趣的讀者可以參考相應的參考資料。

  在 IEEE 標準中,浮點數是將特定長度的連續位元組的所有二進位制位分割為特定寬度的符號域,指數域和尾數域三個域,其中儲存的值分別用於表示給定二進位制浮點數中的符號,指數和尾數。這樣,通過尾數和可以調節的指數(所以稱為"浮點")就可以表達給定的數值了。

  具體的格式參見下面的表格:

  

  需要特別注意的是,擴充套件雙精度型別沒有隱含位,因此它的有效位數與尾數位數一致,而單精度型別和雙精度型別均有一個隱含位,因此它的有效位數比位數位數多一個。


       

  IEEE754標準規定一個實數V可以用:  V=(-1)s×M×2^E的形式表示,說明如下:
  (1)符號s(sign)決定實數是正數(s=0)還是負數(s=1),對數值0的符號位特殊處理。
  (2)有效數字M是二進位制小數,M的取值範圍在1≤M<2或0≤M<1。
  (3)指數E(exponent)是2的冪,它的作用是對浮點數加權。


   為了強制定義一些特殊值,IEEE標準通過指數將表示空間劃分成了三大塊:

  【1】最小值指數(所有位全置0)用於定義0和弱規範數

  【2】最大指數(所有位全值1)用於定義±∞和NaN(Not a Number)

  【3】其他指數用於表示常規的數。

  這樣一來,最大(指絕對值)常規數的指數不是全1的,最小常規數的指數也不是0,而是1。

  

  S:符號位,    Exponent:指數域    Fraction:尾數域

  注意:尾數有時也稱為有效數字(Significand),

   一般如1.001001*2EValue,即一個尾數(Mantissa ),一個基數(底數Base),一個指數Evalue表示

  即: M * BE = 尾數 * 底數指數

  通常情況,IEEE標準寫法,尾數的1,省略,Fraction= 0.001001,因為標準寫法,前面的1總是省略Fraction = 尾數 - 1 ;(IEEE規定小數點左側的 1 是隱藏的)

  如果指數值:加上相應的浮點數偏執後的值:即 Exponent = EValue + Bias。

  所以上述的值: X = (-1)S  X ( 1 + Fraction) (Exponent - Bias), 也就不足為奇了


 

  在上面的圖例中:

  ①  第一個域:為符號域。其中 0 表示數值為正數,而 1 則表示負數。

  ②  第二個域為指數域,對應於我們之前介紹的二進位制科學計數法中的指數部分。

  指數閾:通常使用移碼錶示:

  (移碼和補碼只有符號位相反,其餘都一樣。對於正數而言,原碼、反碼和補碼都一樣;對於負數而言,補碼就是其絕對值的原碼全部取反,然後加1(不包括符號位))。

  其中單精度數為 8 位,雙精度數為 11 位。以單精度數為例,8 位的指數為可以表達 0 到 255 之間的 255 個指數值。

  但是,指數可以為正數,也可以為負數。為了處理負指數的情況,實際的指數值按要求需要加上一個偏差(Bias)值作為儲存在指數域中的值,單精度數的偏差值為 127(0-111 1111)(8位),而雙精度數的偏差值為 1023(0-1 1111 1111)(10位)。比如,單精度的實際指數值 0 在指數域中將儲存為 127;而儲存在指數域中的 64 則表示實際的指數值 -63。偏差的引入使得對於單精度數,實際可以表達的指數值的範圍就變成 -127 到 128 之間(包含兩端)[-127, 128]。

  我們不久還將看到:

  實際的指數值 -127(儲存為 全 0),即: 首先-127原碼1-111 1111,的補碼1-000 0001,然後加上單精度偏執: 0-111 111 ,即結果:0-000 0000,全0.  所以0-000 0000 指數位表示:-127,即e-127

  以及 +128(儲存為全 1), 即:首先+128原碼‘1’-000 0000,的補碼, ‘1’-000 0000,然後加上單精度偏執:0-111 111 ,, 即結果:‘1’-111 1111,全1。   即全1 指數位表示:+128,即e+128

  這些特殊值,保留用作特殊值的處理。這樣,實際可以表達的有效指數範圍就在 -127 和 127 之間。在本文中,最小指數和最大指數分別用 emin 和 emax 來表達。


 

  計算機中的符號數有三種表示方法,即原碼、反碼和補碼。

  如補碼的求取:
    ①  正數(符號位為0的數)補碼與原碼相同.
    ②  負數(符號位為1的數)變為補碼時符號位不變,其餘各項取反,最後在末尾+1;即求負數的反碼不包括符號位。
  例如:正數  原碼01100110,補碼為:01100110
     負數  原碼11100110,先變反碼:10011001,再加1變為補碼:10011010
  計算機中的符號數有三種表示方法,即原碼、反碼和補碼。三種表示方法均有符號位和數值位兩部分,符號位都是用0表示“正”,用1表示“負”,而數值位,三種表示方法各不相同。
  在計算機系統中,數值一律用補碼來表示和儲存。原因在於:①使用補碼,可以將符號位和數值域統一處理;②同時,加法和減法也可以統一處理。此外,③補碼與原碼相互轉換,其運算過程是相同的,不需要額外的硬體電路。
  特性
  ①  一個負整數(或原碼)與其補數(或補碼)相加,和為模。eg:原碼11100110, 補碼:10011010 和:
  ②  對一個整數的補碼再求補碼,等於該整數自身。
  ③  補碼的正零與負零表示方法相同。即 0-0000000, 1-0000000取反加1, 0-0000000


 

  ③  圖例中的第三個域為尾數域,其中單精度數為 23 位長,雙精度數為 52 位長。除了我們將要講到的某些特殊值外,IEEE 標準要求浮點數必須是規範的。這意味著尾數的小數點左側必須為 1,因此我們在儲存尾數的時候,可以省略小數點前面這個 1,從而騰出一個二進位制位來儲存更多的尾數。這樣我們實際上用 23 位長的尾數域表達了 24 位的尾數。比如對於單精度數而言,二進位制的 1001.101(對應於十進位制的 9.625)可以表達為 1.001101 × 23,所以實際儲存在尾數域中的值為 00110100000000000000000,即去掉小數點左側的 1,並用 0 在右側補齊。

   根據IEEE(美國電氣和電子工程師學會)754標準要求,無法精確儲存的值必須向最接近的可儲存的值進行舍入。這有點像我們熟悉的十進位制的四捨五入,即不足一半則舍,一半以上(包括一半)則進。不過對於二進位制浮 點數而言,還多一條規矩,就是當需要舍入的值剛好是一半時,不是簡單地進,而是在前後兩個等距接近的可儲存的值中,取其中最後一位有效數字為零者。從上面 的示例中可以看出,奇數都被舍入為偶數,且有舍有進。我們可以將這種舍入誤差理解為"半位"的誤差。所以,為了避免 7.22 對很多人造成的困惑,有些文章經常以 7.5 位來說明單精度浮點數的精度問題。

  據以上分析,IEEE 754標準中定義浮點數的表示範圍為:

  單精度浮點數  二進位制:± (2-2^-23) × 2127    對應十進位制:  ~ ± 10^38.53

  雙精度浮點數    二進位制:± (2-2^-52) × 21023

  浮點數的表示有一定的範圍,超出範圍時會產生溢位(Flow),一般稱大於絕對值最大的資料為上溢(Overflow),小於絕對值最小的資料為下溢(Underflow)。

 

2. 浮點數的表示約定

  單精度浮點數和雙精度浮點數都是用IEEE 754標準定義的,其中有一些特殊約定,例如:

  (1)  當P=0,M=0時,表示0。
  (2)  當P=255,M=0時,表示無窮大,用符號位來確定是正無窮大還是負無窮大。
  (3)  當P=255,M≠0時,表示NaN(Not a Number,不是一個數)。

 

3. 特殊值

 通過前面的介紹,你應該已經瞭解的浮點數的基本知識,這些知識對於一個不接觸浮點數應用的人應該足夠了。不過,如果你興趣正濃,或者面對著一個棘手的浮點數應用,可以通過本節瞭解到關於浮點數的一些值得注意的特殊之處。

  我們已經知道,單精度浮點數指數域實際可以表達的指數值的範圍為 -127 到 128 之間(包含兩端)。其中,值 -127(儲存為全0)以及 +128(儲存為全1)保留用作特殊值的處理。本節將詳細 IEEE 標準中所定義的這些特殊值。

  浮點數中的特殊值主要用於特殊情況或者錯誤的處理。比如在程式對一個負數進行開平方時,一個特殊的返回值將用於標記這種錯誤,該值為 NaN(Not a Number)。沒有這樣的特殊值,對於此類錯誤只能粗暴地終止計算。除了 NaN 之外,IEEE 標準還定義了 ±0,±∞ 以及非規範化數(Denormalized Number)。

  對於單精度浮點數,所有這些特殊值都由保留的特殊指數值 -127 和 128 來編碼。如果我們分別用 emin 和 emax 來表達其它常規指數值範圍的邊界,即 -126 和 127,則保留的特殊指數值可以分別表達為 emin - 1 和 emax + 1; 。基於這個表達方式,IEEE 標準的特殊值如下所示:

 

  其中 f 表示尾數中的小數點右側的(Fraction)部分,即標準記法中的有效部分-1。

  第一行即我們之前介紹的普通的規範化浮點數。隨後我們將分別對餘下的特殊值加以介紹。

  第2,3,4,5行,是特殊值。

(1)NaN

  NaN 用於處理計算中出現的錯誤情況,比如 0.0 除以 0.0 或者求負數的平方根。

  由上面的表中可以看出,對於單精度浮點數,NaN 表示為指數為 emax + 1 = 128(指數域全為 1),且尾數域不等於零的浮點數。IEEE 標準沒有要求具體的尾數域,所以 NaN 實際上不是一個,而是一族。

  不同的實現可以自由選擇尾數域的值來表達 NaN,比如 Java 中的常量 Float.NaN 的浮點數可能表達為 0-11111111-10000000000000000000000,其中尾數域的第一位為 1,其餘均為 0(不計隱藏的一位),但這取決系統的硬體架構。Java 中甚至允許程式設計師自己構造具有特定位模式的 NaN 值(通過 Float.intBitsToFloat() 方法)。比如,程式設計師可以利用這種定製的 NaN 值中的特定位模式來表達某些診斷資訊。定製的 NaN 值,可以通過 Float.isNaN() 方法判定其為 NaN,但是它和 Float.NaN 常量卻不相等。

  實際上,所有的 NaN 值都是無序的。數值比較操作符 <,<=,> 和 >= 在任一運算元為 NaN 時均返回 false。等於操作符 == 在任一運算元為 NaN 時均返回 false,即使是兩個具有相同位模式的 NaN 也一樣。而操作符 != 則當任一運算元為 NaN 時返回 true。

  這個規則的一個有趣的結果是 x!=x 當 x 為 NaN 時竟然為真。

  NaN

  此外,任何有 NaN 作為運算元的操作也將產生 NaN。用特殊的 NaN 來表達上述運算錯誤的意義在於避免了因這些錯誤而導致運算的不必要的終止。比如,如果一個被迴圈呼叫的浮點運算方法,可能由於輸入的引數問題而導致發生這些錯誤,NaN 使得 即使某次迴圈發生了這樣的錯誤,也可以簡單地繼續執行迴圈以進行那些沒有錯誤的運算。你可能想到,既然 Java 有異常處理機制,也許可以通過捕獲並忽略異常達到相同的效果。但是,要知道,IEEE 標準不是僅僅為 Java 而制定的,各種語言處理異常的機制不盡相同,這將使得程式碼的遷移變得更加困難。何況,不是所有語言都有類似的異常或者訊號(Signal)處理機制。

(2)無窮

  和 NaN 一樣,特殊值無窮(Infinity)的指數部分同樣為 emax + 1 = 128,不過無窮的尾數域必須為零。無窮用於表達計算中產生的上溢(Overflow)問題。比如兩個極大的數相乘時,儘管兩個運算元本身可以用儲存為浮點數,但其結果可能大到無法儲存為浮點數,而必須進行舍入。根據 IEEE 標準,此時不是將結果舍入為可以儲存的最大的浮點數(因為這個數可能離實際的結果相差太遠而毫無意義),而是將其舍入為無窮。對於負數結果也是如此,只不過此時舍入為負無窮,也就是說符號域為 1 的無窮。有了 NaN 的經驗我們不難理解,特殊值無窮使得計算中發生的上溢錯誤不必以終止運算為結果。

  無窮和除 NaN 以外的其它浮點數一樣是有序的,從小到大依次為負無窮,負的有窮非零值,正負零(隨後介紹),正的有窮非零值以及正無窮。除 NaN 以外的任何非零值除以零,結果都將是無窮,而符號則由作為除數的零的符號決定。  

  回顧我們對 NaN 的介紹,當零除以零時得到的結果不是無窮而是 NaN 。原因不難理解,當除數和被除數都逼近於零時,其商可能為任何值,所以 IEEE 標準決定此時用 NaN 作為商比較合適。

(3)有符號的零

  因為 IEEE 標準的浮點數格式中,小數點左側的 1 是隱藏的,而零顯然需要尾數必須是零。所以,零也就無法直接用這種格式表達而只能特殊處理。實際上,零儲存為尾數域為全為 0,指數域為 emin - 1 = -127,也就是說指數域也全為 0。考慮到符號域的作用,所以存在著兩個零,即 +0 和 -0。不同於正負無窮之間是有序的,IEEE 標準規定正負零是相等的。

 零有正負之分,的確非常容易讓人困惑。這一點是基於數值分析的多種考慮,經利弊權衡後形成的結果。有符號的零可以避免運算中,特別是涉及無窮的運算中,符號資訊的丟失。舉例而言,如果零無符號,則等式 1/(1/x) = x 當x = ±∞ 時不再成立。原因是如果零無符號,1 和正負無窮的比值為同一個零,然後 1 與 0 的比值為正無窮,符號沒有了。解決這個問題,除非無窮也沒有符號。但是無窮的符號表達了上溢發生在數軸的哪一側,這個資訊顯然是不能不要的。零有符號也造成了其它問題,比如當 x=y 時,等式1/x = 1/y 在 x 和 y 分別為 +0 和 -0 時,兩端分別為正無窮和負無窮而不再成立。當然,解決這個問題的另一個思路是和無窮一樣,規定零也是有序的。但是,如果零是有序的,則即使 if (x==0) 這樣簡單的判斷也由於 x 可能是 ±0 而變得不確定了。兩害取其輕者,零還是無序的好。

(4)非規範化數

  我們來考察浮點數的一個特殊情況。選擇兩個絕對值極小的浮點數,以單精度的二進位制浮點數為例,比如 1.001 × 2-125 和 1.0001 × 2-125 這兩個數(分別對應於十進位制的 2.6448623 × 10-38 和 2.4979255 × 10-38)。顯然,他們都是普通的浮點數(指數為 -125,大於允許的最小值 -126;尾數更沒問題),按照 IEEE 754 可以分別儲存為 00000001000100000000000000000000(0x1100000)和 00000001000010000000000000000000(0x1080000)。
  現在我們看看這兩個浮點數的差值。不難得出,該差值為 0.0001 × 2-125,表達為規範浮點數則為 1.0 × 2-129。問題在於其指數大於允許的最小指數值,所以無法儲存為規範浮點數。最終,只能近似為零(Flush to Zero)。這中特殊情況意味著下面本來十分可靠的程式碼也可能出現問題:

if (x != y) {

 z = 1 / (x -y);

}

  正如我們精心選擇的兩個浮點數展現的問題一樣,即使 x 不等於 y,x 和 y 的差值仍然可能絕對值過小,而近似為零,導致除以 0 的情況發生。

  為了解決此類問題,IEEE 標準中引入了非規範(Denormalized)浮點數。規定當浮點數的指數為允許的最小指數值,即 emin 時,尾數不必是規範化的。比如上面例子中的差值可以表達為非規範的浮點數 0.001 × 2-126,其中指數 -126 等於 emin。注意,這裡規定的是"不必",這也就意味著"可以"。當浮點數實際的指數為 emin,且指數域也為 emin 時,該浮點數仍是規範的,也就是說,儲存時隱含著一個隱藏的尾數位。為了儲存非規範浮點數,IEEE 標準採用了類似處理特殊值零時所採用的辦法,即用特殊的指數域值 emin - 1 加以標記,當然,此時的尾數域不能為零。這樣,例子中的差值可以儲存為 00000000000100000000000000000000(0x100000),沒有隱含的尾數位。
  有了非規範浮點數,去掉了隱含的尾數位的制約,可以儲存絕對值更小的浮點數。而且,也由於不再受到隱含尾數域的制約,上述關於極小差值的問題也不存在了,因為所有可以儲存的浮點數之間的差值同樣可以儲存。

4. 範圍和精度

 很多小數根本無法在二進位制計算機中精確表示(比如最簡單的 0.1)由於浮點數尾數域的位數是有限的,為此,浮點數的處理辦法是持續該過程直到由此得到的尾數足以填滿尾數域,之後對多餘的位進行舍入。

  換句話說,除了我們之前講到的精度問題之外,十進位制到二進位制的變換也並不能保證總是精確的,而只能是近似值。

  事實上,只有很少一部分十進位制小數具有精確的二進位制浮點數表達。再加上浮點數運算過程中的誤差累積,結果是很多我們看來非常簡單的十進位制運算在計算機上卻往往出人意料。這就是最常見的浮點運算的"不準確"問題。

  參見下面的 Java 示例:

System.out.print("34.6-34.0=" + (34.6f-34.0f));

  這段程式碼的輸出結果如下:

34.6-34.0=0.5999985

  產生這個誤差的原因是 34.6 無法精確的表達為相應的浮點數,而只能儲存為經過舍入的近似值。這個近似值與 34.0 之間的運算自然無法產生精確的結果。

  儲存格式的範圍和精度如下表所示:

        

5. 舍入

  值得注意的是,對於單精度數,由於我們只有 24 位的尾數(其中一位隱藏),所以可以表達的最大指數為 224 - 1 = 16,777,215。

  特別的,16,777,216 是偶數,所以我們可以通過將它除以 2 並相應地調整指數來儲存這個數,這樣 16,777,216 同樣可以被精確的儲存。相反,數值      16,777,217 則無法被精確的儲存。由此,我們可以看到單精度的浮點數可以表達的十進位制數值中,真正有效的數字不高於 8 位。

  事實上,對相對誤差的數值分析結果顯示有效的精度大約為 7.22 位。

  例項如下所示:

  

  根 據標準要求,無法精確儲存的值必須向最接近的可儲存的值進行舍入。這有點像我們熟悉的十進位制的四捨五入,即不足一半則舍,一半以上(包括一半)則進。不過 對於二進位制浮點數而言,還多一條規矩,就是當需要舍入的值剛好是一半時,不是簡單地進,而是在前後兩個等距接近的可儲存的值中,取其中最後一位有效數字為 零者。從上面的示例中可以看出,奇數都被舍入為偶數,且有舍有進。我們可以將這種舍入誤差理解為"半位"的誤差。所以,為了避免 7.22 對很多人造成的困惑,有些文章經常以 7.5 位來說明單精度浮點數的精度問題。

  提示: 這裡採用的浮點數舍入規則有時被稱為舍入到偶數(Round to Even)。相比簡單地逢一半則進的舍入規則,舍入到偶數有助於從某些角度減小計算中產生的舍入誤差累積問題。因此為 IEEE 標準所採用。