浮點數在計算機中的儲存方式

阿新 • • 發佈：2019-01-16

C語言和 C#語言中，對於浮點型的資料採用單精度型別(float)和雙精度型別(double)來儲存：

float 資料佔用 32bit；

double 資料佔用 64bit；

我們在宣告一個變數 float f = 2.25f 的時候，是如何分配記憶體的呢？

其實不論是 float 型別還是 double 型別，在儲存方式上都是遵從IEEE的規範：

float 遵從的是 IEEE R32.24；

double 遵從的是 IEEE R64.53；

單精度或雙精度在儲存中，都分為三個部分：

符號位 (Sign)：0代表正數，1代表為負數；

指數位 (Exponent)：用於儲存科學計數法中的指數資料；

尾數部分 (Mantissa)：採用移位儲存尾數部分；

單精度 float 的儲存方式如下：

雙精度 double 的儲存方式如下：

R32.24 和 R64.53 的儲存方式都是用科學計數法來儲存資料的，比如：

8.25 用十進位制表示為：8.25 * 10⁰

120.5 用十進位制表示為：1.205 * 10²

而計算機根本不認識十進位制的資料，他只認識0和1。所以在計算機儲存中，首先要將上面的數更改為二進位制的科學計數法表示：

8.25 用二進位制表示為：1000.01

118.5 用二進位制表示為：1110110.1

而用二進位制的科學計數法表示 1000.1，可以表示為1.0001 * 2³

而用二進位制的科學計數法表示 1110110.1，可以表示為1.1101101 * 2⁶

任何一個數的科學計數法表示都為1. xxx * 2ⁿ，尾數部分就可以表示為xxxx，由於第一位都是1嘛，幹嘛還要表示呀？所以將小數點前面的1省略。

由此，23bit的尾數部分，可以表示的精度卻變成了24bit，道理就是在這裡。（float有效位數相應的也會發生變化,而double則不會，因達不到）

那 24bit 能精確到小數點後幾位呢？我們知道9的二進位制表示為1001，所以 4bit 能精確十進位制中的1位小數點，24bit就能使 float 精確到小數點後6位；

而對於指數部分，因為指數可正可負(佔1位)，所以8位的指數位能表示的指數範圍就只能用7位，範圍是:-127至128。所以指數部分的儲存採用移位儲存，儲存的資料為元資料 +127。

注意：

元資料+127：大概是指“指數”從00000000開始（表示-127）至11111111（表示+128）

所以，10000000表示指數1 (127 + 1 = 128 --> 10000000 ) ；

指數為 3，則為 127 + 3 = 130，表示為 01111111 + 11 = 10000010 ；

下面就看看 8.25 和 118.5 在記憶體中真正的儲存方式:

8.25 用二進位制表示為：1000.01

8.25 用二進位制的科學計數法表示為: 1.0001* 2³，按照上面的儲存方式：

符號位為：0，表示為正；

指數位為：3+127=130，即 10000011；

尾數部分為：0001；

故8.25的儲存方式如下圖所示：

而單精度浮點數118.5的儲存方式如下圖所示：

那麼如果給出記憶體中一段資料，並且告訴你是單精度儲存的話，你將如何知道該資料的十進位制數值呢？

其實就是對上面運算的反推過程，比如給出如下記憶體資料：01000010111011010000000000000000，

首先我們現將該資料分段：0 10000101 11011010000000000000000，在記憶體中的儲存就為下圖所示：

根據我們的計算方式，可以計算出這樣一組資料表示為：

1.1101101*2^(133-127=6)=1.1101101 * 2⁶= 1110110.1=118.5

而雙精度浮點數的儲存和單精度的儲存大同小異，不同的是指數部分和尾數部分的位數。所以這裡不再詳細的介紹雙精度的儲存方式了，只將118.5的最後儲存方式圖給出：

下面就這個知識點來解決一個疑惑，請看下面一段程式，注意觀察輸出結果：

class 浮點數
    {
        static void Main(string[] args)
        {
            float f = 2.2f;
            double d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));
            //結果："2.2000000476837"

            f = 2.25f;
            d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));
            //結果："2.2500000000000"

            //2.25 - 2.2 = 0.05 ( 但實際結果不是0.05 )
            float f2 = 2.25f - 2.2f;
            Console.WriteLine(f2.ToString("0.0000000000000"));
            //結果："0.0499999500000"
        }
    }

輸出的結果可能讓大家疑惑不解：

單精度的 2.2 轉換為雙精度後，精確到小數點後13位之後變為了2.2000000476837

而單精度的 2.25 轉換為雙精度後，變為了2.2500000000000

為何 2.2 在轉換後的數值更改了，而 2.25 卻沒有更改呢？

其實通過上面關於兩種儲存結果的介紹，我們大概就能找到答案。

2.25 的單精度儲存方式表示為：0 10000001 00100000000000000000000

2.25 的雙精度儲存方式表示為：0 10000000 0010010000000000000000000000000000000000000000000000000

這樣 2.25 在進行強制轉換的時候，數值是不會變的。

而我們再看看 2.2，用科學計數法表示應該為：

將十進位制的小數轉換為二進位制的小數的方法是：將小數*2，取整數部分。

0.2×2=0.4，所以二進位制小數第一位為0.4的整數部分0；

0.4×2=0.8，第二位為0.8的整數部分0；

0.8×2=1.6，第三位為1；

0.6×2=1.2，第四位為1；

0.2×2=0.4，第五位為0；

...... 這樣永遠也不可能乘到=1.0，得到的二進位制是一個無限迴圈的排列 00110011001100110011...

對於單精度資料來說，尾數只能表示 24bit 的精度，所以2.2的 float 儲存為:

但是這種儲存方式，換算成十進位制的值，卻不會是2.2。

因為在十進位制轉換為二進位制的時候可能會不準確（如：2.2），這樣就導致了誤差問題！

並且 double 型別的資料也存在同樣的問題！

所以在浮點數表示中，都可能會不可避免的產生些許誤差！

在單精度轉換為雙精度的時候，也會存在同樣的誤差問題。

而對於有些資料（如2.25），在將十進位制轉換為二進位制表示的時候恰好能夠計算完畢，所以這個誤差就不會存在，也就出現了上面比較奇怪的輸出結果。

本人對其中的一些細節和錯誤進行了精心的調整。

浮點數在計算機中儲存方式

C語言和C#語言中，對於浮點型別的資料採用單精度型別（float）和雙精度型別(double)來儲存，float資料佔用32bit,double資料佔用64bit,我們在宣告一個變數float f= 2.25f的時候，是如何分配記憶體的呢？如果胡亂分配，那世界豈不是亂套

浮點數在計算機中儲存的方式

浮點數在計算機中的儲存 1996年6月4日，歐洲最新的無人駕駛火箭Ariane5初次航行時，發射後僅37秒，火箭偏離了它的飛行路徑，解體並且爆炸。火箭上載有價值5億美元的通訊衛星。科學家們進行調查之後，原來只是因為小小的浮點數導致這場災難性的後果，白白地損失了

浮點數除法中零的問題

1如果除法運算子的兩個運算數都是整數，則除數不可以為0，否則會引發除零異常。如：int a = 3/0; //將會出現異常 2如果除法運演算法的兩個運算數有1個浮點數，或者有兩個浮點數，則運算結果也是浮點數。而且此時允許除數為0、或者除數為0.0，得

浮點數的記憶體儲存

今天我們來探討一下浮點數的記憶體存儲存！先來看一個例子： int main() { int a = 9; float *p = (float*)&a; printf("%d\n", a);//以有符號十進位制整形方式列印 printf("%f\n", *p);//以有符號十

浮點數(實數)中單精度與雙精度區別

#在記憶體中儲存格式的區別： folat單精度：1位訊號（0為正1為負），8位1位元組為指數，最後23位為小數部分 ##double雙精度：1位訊號（0為正1為負），11位為指數，最後23位為小數部分從儲存的不同可以看出單精度在長度上已經小雙精度一倍，當對資料型別的精度要求不高（±3X

計算機中儲存、網路傳輸計量單位

目錄 1.儲存單位 1.1.位 1.2.位元組 1.3.字 1.4.兩種計量單位 1.5.硬碟縮水原因 2.網路傳輸單位 2.1.服務商單位 2.2.軟體單位 2.3.解釋20M寬頻實際下載速度 1.儲存單位 1.1.位英文bit，又稱“

java浮點數除法中零的問題

1，浮點數除法中零的問題 1.1如果除法運算子的兩個運算數都是整數，則除數不可以為0，否則會引發除零異常。如：int a = 3/0; //將會出現異常 1.2如果除法運演算法的兩個運算

計算機中儲存單位的認識與理解

計算機上的資訊儲存單位與日常生活中計算單位存在很大的差別，易於導致相關概念的混淆，而且認識這些對測試計算機效能具有很重要的意義。一. 計算機資訊儲存單位計算機資訊用二進位制的形式表示常用的單位有位、字以及位元組。它也是儲存器儲存資訊的最小單位，通常

JavaScript數據在內存中儲存方式

tac null string 其中 num light 包括變量基本數據類型詳情來源於個本人博客： https://shengchangwei.github.io/al-data/ > Js的數據類型包括兩種：基本數據類型：String、Boolea

浮點數在計算機中的儲存方式

C語言和 C#語言中，對於浮點型的資料採用單精度型別(float)和雙精度型別(double)來儲存： float 資料佔用 32bit； double 資料佔用 64bit；我們在宣告一個變數 float f = 2.25f 的時候，是如何分配記憶體的呢？其實不

浮點數在計算機記憶體中的儲存方式。

浮點數在計算機記憶體中的儲存方式整數在計算機記憶體中是以其二進位制的原碼，補碼和反碼來表示的，其中正數的

計算機中浮點數的儲存方式

參考網址：http://blog.chinaunix.net/uid-28458801-id-3507427.html 根據國際標準IEEE 754，任意一個二進位制浮點數V可以表示成下面的形式：　　V = (-1)^s×M×2^E 　　（1）(-1)^s表示符號位，當s

【C語言中的細節問題】C/C++浮點數在記憶體中的儲存方式

C/C++浮點數在記憶體中的儲存方式本文轉載自：https://www.cnblogs.com/dolphin0520/archive/2011/10/02/2198280.html 任何資料在記憶體中都是以二進位制

C語言中浮點數在內存中的存儲方式

大端部分由於包含指數類型計算機 data- trac 關於多字節數據類型在內存中的存儲問題 //////////////////////////////////////////////////////////////// int ,short 各

[算法]浮點數在內存中的存儲方式

www. sig 後者 mage 工具 32bit alt iss bits float型變量占用32bit，即4個byte的內存空間我們先來看下浮點數二進制表達的三個組成部分。三個主要成分是： Sign（1bit）：表示浮點數是正數還是負數。0表示正數，1表示負數

c/c++浮點數在內存中存儲方式

十進制 .html 但是指針單元 sin namespace short space 轉自：https://www.cnblogs.com/dolphin0520/archive/2011/10/02/2198280.html 任何數據在內存中都是以二進制的形式存儲的，

浮點數在記憶體中的儲存

浮點數在記憶體中的儲存浮點數家族：float,double,long double型別. 同一個數為啥差別這麼大？想知道為神馬？請讀下文。詳細解讀： 1.根據國際標準IEEE（電氣和電子工程協會）754，任意一個二進位制浮點數V可以

深入理解計算機系統（2.8）---浮點數的舍入，Java中的舍入例子以及浮點數運算（重要）

https://www.cnblogs.com/zuoxiaolong/p/computer12.html 前言　　上一章我們簡單介紹了IEEE浮點標準，本次我們主要講解一下浮點運算舍入的問題，以及簡單的介紹浮點數的運算。　　之前我們已經提到過，有很多小數是二進位制

計算機中浮點數的表示，IEEE 754標準

IEEE Standard for Floating-Point Arithmetic（IEEE 754，Institute of Electrical and Electronics Engineers）是1985年建立的浮點數計算的技術標準。解決了原來浮點數實現不一致的問題，許多硬體

整數，浮點數在記憶體中的儲存形式

一整數在記憶體中的儲存形式　　整數在記憶體中以補碼形式儲存，詳細原因見原碼，反碼，補碼。　　主要原因是使用補碼可以將符號位與數值域統一處理，同時，加法和減法也可以統一處理（cpu只有加法器），此外，補碼與原碼的轉化，其運算過程是相同的，不需要額外的硬體電路。如上

浮點數在計算機中的儲存方式

相關推薦