1. 程式人生 > >判斷CPU模式是大端還是小段(big-Endian和little-Endian)

判斷CPU模式是大端還是小段(big-Endian和little-Endian)

一、大端模式和小端模式的起源

        關於大端小端名詞的由來,有一個有趣的故事,來自於Jonathan Swift的《格利佛遊記》:Lilliput和Blefuscu這兩個強國在過去的36個月中一直在苦戰。戰爭的原因:大家都知道,吃雞蛋的時候,原始的方法是打破雞蛋較大的一端,可以那時的皇帝的祖父由於小時侯吃雞蛋,按這種方法把手指弄破了,因此他的父親,就下令,命令所有的子民吃雞蛋的時候,必須先打破雞蛋較小的一端,違令者重罰。然後老百姓對此法令極為反感,期間發生了多次叛亂,其中一個皇帝因此送命,另一個丟了王位,產生叛亂的原因就是另一個國家Blefuscu的國王大臣煽動起來的,叛亂平息後,就逃到這個帝國避難。據估計,先後幾次有11000餘人情願死也不肯去打破雞蛋較小的端吃雞蛋。這個其實諷刺當時英國和法國之間持續的衝突。Danny Cohen一位網路協議的開創者,第一次使用這兩個術語指代位元組順序,後來就被大家廣泛接受。

二、什麼是大端和小端

        Big-Endian和Little-Endian的定義如下:
1) Little-Endian就是低位位元組排放在記憶體的低地址端,高位位元組排放在記憶體的高地址端。
2) Big-Endian就是高位位元組排放在記憶體的低地址端,低位位元組排放在記憶體的高地址端。
舉一個例子,比如數字0x12 34 56 78在記憶體中的表示形式為:

1)大端模式:

低地址 -----------------> 高地址
0x12  |  0x34  |  0x56  |  0x78

2)小端模式:

低地址 ------------------> 高地址
0x78  |  0x56  |  0x34  |  0x12

可見,大端模式和字串的儲存模式類似。

3)下面是兩個具體例子:

16bit寬的數0x1234在Little-endian模式(以及Big-endian模式)CPU記憶體中的存放方式(假設從地址0x4000開始存放)為:
記憶體地址 小端模式存放內容 大端模式存放內容
0x4000 0x34 0x12
0x4001 0x12 0x34

32bit寬的數0x12345678在Little-endian模式以及Big-endian模式)CPU記憶體中的存放方式(假設從地址0x4000開始存放)為:

記憶體地址 小端模式存放內容 大端模式存放內容
0x4000 0x78 0x12
0x4001 0x56 0x34
0x4002
0x34 0x56
0x4003 0x12 0x78

 4)大端小端沒有誰優誰劣,各自優勢便是對方劣勢:

大端:容易判斷正負(offset(0));

ps:通常情況下,ARM是大端模式;X86是小端模式;

小端:易於進行資料型別轉換,1、2、4位元組的儲存方式一樣。

三、陣列在大端小端情況下的儲存:

  以unsigned int value = 0x12345678為例,分別看看在兩種位元組序下其儲存情況,我們可以用unsigned char buf[4]來表示value:
  Big-Endian: 低地址存放高位,如下:
高地址
        ---------------
        buf[3] (0x78) -- 低位
        buf[2] (0x56)
        buf[1] (0x34)
        buf[0] (0x12) -- 高位
        ---------------
        低地址
Little-Endian: 低地址存放低位,如下:
高地址
        ---------------
        buf[3] (0x12) -- 高位
        buf[2] (0x34)
        buf[1] (0x56)
        buf[0] (0x78) -- 低位
        --------------
低地址

四、為什麼會有大小端模式之分呢?

      這是因為在計算機系統中,我們是以位元組為單位的,每個地址單元都對應著一個位元組,一個位元組為8bit。但是在C語言中除了8bit的char之外,還有16bit的short型,32bit的long型(要看具體的編譯器),另外,對於位數大於8位的處理器,例如16位或者32位的處理器,由於暫存器寬度大於一個位元組,那麼必然存在著一個如果將多個位元組安排的問題。因此就導致了大端儲存模式和小端儲存模式。例如一個16bit的short型x,在記憶體中的地址為0x0010,x的值為0x1122,那麼0x11為高位元組,0x22為低位元組。對於大端模式,就將0x11放在低地址中,即0x0010中,0x22放在高地址中,即0x0011中。小端模式,剛好相反。我們常用的X86結構是小端模式,而KEIL C51則為大端模式。很多的ARM,DSP都為小端模式。有些ARM處理器還可以由硬體來選擇是大端模式還是小端模式。

網路位元組序:TCP/IP各層協議將位元組序定義為Big-Endian,因此TCP/IP協議中使用的位元組序通常稱之為網路位元組序。

網路位元組順序是“所見即所得”的順序。而Intel型別的CPU的位元組順序與此相反。

比如上面的 shortB=0102H(十六進位制,每兩位表示一個位元組的寬度)。所見到的是“0102”,按一般數學常識,數軸從左到右的方向增加,即記憶體地址從左到右增加的話,在記憶體中這個short B的位元組順序是:

01 02

這就是網路位元組順序。所見到的順序和在記憶體中的順序是一致的!

   在ARM體系中,每個字單元包含4個位元組單元或者兩個半字單元。在字單元中,4個位元組哪一個是高位位元組,哪一個是低位位元組則有兩種不同的格式:big-endian和little-endian格式。在小端模式中,低位位元組放在低地址,高位位元組放在高地址;在大端模式中,低位位元組放在高地址,高位位元組放在低地址。

在C語言中,不同於結構體,共用體(聯合體)中的幾種不同型別的變數存放在同一段記憶體單元中。利用這一特點,可以用聯合體變數判斷ARM或x86環境下,儲存系統是是大端還是小端模式。


五、如何判斷機器的位元組序

    可以使用程式判斷CPU模式是大端還是小端

#include <stdio.h>
#include <stdlib.h>
int main()
{

	int a=0x1234;
	char b=*(char*)&a;
	if(b==0x12)
		printf("big end\n");
	else
		printf("little end\n");
	return 0;
	}

六、從系統的角度理解端模式

    先補充兩個關鍵詞,MSB和LSB:
  MSB:MoST Significant Bit ------- 最高有效位
        LSB:Least Significant Bit ------- 最低有效位
    處理器在硬體上由於端模式問題在設計中有所不同。從系統的角度上看,端模式問題對軟體和硬體的設計帶來了不同的影響,當一個處理器系統中大小端模式同時存在時,必須要對這些不同端模式的訪問進行特殊的處理。
    PowerPC處理器主導網路市場,可以說絕大多數的通訊裝置都使用PowerPC處理器進行協議處理和其他控制資訊的處理,這也可能也是在網路上的絕大多數協議都採用大端編址方式的原因。因此在有關網路協議的軟體設計中,使用小端方式的處理器需要在軟體中處理端模式的轉變。而Pentium主導個人機市場,因此多數用於個人機的外設都採用小端模式,包括一些在網路裝置中使用的PCI匯流排,Flash等裝置,這也要求在硬體設計中注意端模式的轉換。
    本文提到的小端外設是指這種外設中的暫存器以小端方式進行儲存,如PCI裝置的配置空間,NOR FLASH中的暫存器等等。對於有些裝置,如DDR顆粒,沒有以小端方式儲存的暫存器,因此從邏輯上講並不需要對端模式進行轉換。在設計中,只需要將雙方資料匯流排進行一一對應的互連,而不需要進行資料匯流排的轉換。
    如果從實際應用的角度說,採用小端模式的處理器需要在軟體中處理端模式的轉換,因為採用小端模式的處理器在與小端外設互連時,不需要任何轉換。而採用大端模式的處理器需要在硬體設計時處理端模式的轉換。大端模式處理器需要在暫存器,指令集,資料匯流排及資料匯流排與小端外設的連線等等多個方面進行處理,以解決與小端外設連線時的端模式轉換問題。在暫存器和資料匯流排的位序定義上,基於大小端模式的處理器有所不同。
    一個採用大端模式的32位處理器,如基於E500核心的MPC8541,將其暫存器的最高位msb(most significant bit)定義為0,最低位lsb(lease significant bit)定義為31;而小端模式的32位處理器,將其暫存器的最高位定義為31,低位地址定義為0。與此向對應,採用大端模式的32位處理器資料匯流排的最高位為0,最高位為31;採用小端模式的32位處理器的資料匯流排的最高位為31,最低位為0。         
    大小端模式處理器外部匯流排的位序也遵循著同樣的規律,根據所採用的資料匯流排是32位,16位和8位,大小端處理器外部匯流排的位序有所不同。大端模式下32位資料匯流排的msb是第0位,MSB是資料匯流排的第0~7的欄位;而lsb是第31位,LSB是第24~31欄位。小端模式下32位匯流排的msb是第31位,MSB是資料匯流排的第31~24位,lsb是第0位,LSB是7~0欄位。大端模式下16位資料匯流排的msb是第0位,MSB是資料匯流排的第0~7的欄位;而lsb是第15位,LSB是第8~15欄位。小端模式下16位匯流排的msb是第15位,MSB是資料匯流排的第15~7位,lsb是第0位,LSB是7~0欄位。大端模式下8位資料匯流排的msb是第0位,MSB是資料匯流排的第0~7的欄位;而lsb是第7位,LSB是第0~7欄位。小端模式下8位匯流排的msb是第7位,MSB是資料匯流排的第7~0位,lsb是第0位,LSB是7~0欄位。
    由上分析,我們可以得知對於8位,16位和32位寬度的資料匯流排,採用大端模式時資料匯流排的msb和MSB的位置都不會發生變化,而採用小端模式時資料匯流排的lsb和LSB位置也不會發生變化。
    為此,大端模式的處理器對8位,16位和32位的記憶體訪問(包括外設的訪問)一般都包含第0~7欄位,即MSB。小端模式的處理器對8位,16位和32位的記憶體訪問都包含第7~0位,小端方式的第7~0欄位,即LSB。由於大小端處理器的資料匯流排其8位,16位和32位寬度的資料匯流排的定義不同,因此需要分別進行討論在系統級別上如何處理端模式轉換。在一個大端處理器系統中,需要處理大端處理器對小端外設的訪問。

七、實際中的例子

    雖然很多時候,位元組序的工作已由編譯器完成了,但是在一些小的細節上,仍然需要去仔細揣摩考慮,尤其是在乙太網通訊、MODBUS通訊、軟體移植性方面。這裡,舉一個MODBUS通訊的例子。在MODBUS中,資料需要組織成資料報文,該報文中的資料都是大端模式,即低地址存高位,高地址存低位。假設有一16位緩衝區m_RegMW[256],因為是在x86平臺上,所以記憶體中的資料為小端模式:m_RegMW[0].low、m_RegMW[0].high、m_RegMW[1].low、m_RegMW[1].high……
為了方便討論,假設m_RegMW[0] = 0x3456; 在記憶體中為0x56、0x34。
       現要將該資料發出,如果不進行資料轉換直接傳送,此時傳送的資料為0x56,0x34。而Modbus是大端的,會將該資料解釋為0x5634而非原資料0x3456,此時就會發生災難性的錯誤。
所以,在此之前,需要將小端資料轉換成大端的,即進行高位元組和低位元組的交換,此時可以呼叫步驟五中的函式BigtoLittle16(m_RegMW[0]),之後再進行傳送才可以得到正確的資料。