1. 程式人生 > >UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介紹

UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介紹

轉載地址:https://charlee.li/unicode-intro.html

基本知識

   (1) 位元組和字元的區別

       咦,位元組和字元能有什麼區別啊?不都是一樣的嗎?完全正確,但只是在古老的DOS時代。 當Unicode出現後,位元組和字元就不一樣了。

       位元組(octet)是一個八位的儲存單元,取值範圍一定是0~255。而字元(character,或者word) 為語言意義上的符號,範圍就不一定了。例如在UCS-2中定義的字元範圍為0~65535, 它的一個字元佔用兩個位元組。

    (2) BigEndian和Little Endian  

       上面提到了一個字元可能佔用多個位元組,那麼這多個位元組在計算機中如何儲存呢? 比如字元0xabcd,它的儲存格式到底是           AB CD,還是 CD AB 呢?

       實際上兩者都有可能,並分別有不同的名字。如果儲存為 AB CD,則稱為Big Endian; 如果儲存為 CD AB,則稱為Little           Endian

       具體來說,以下這種儲存格式為Big Endian,因為值(0xabcd)的高位(0xab)儲存在前面:

地址
0x00000000 AB
0x00000001 CD

       相反,以下這種儲存格式為Little Endian:

地址
0x00000000 CD
0x00000001 AB

 (2) UCS-2和UCS-4

     Unicode是為整合全世界的所有語言檔案所誕生的。任何文字在Unicode中都對應一個值,這個值稱為程式碼點(code point)。程式碼點的值通常寫成U+ABCD的格式。 而文字和程式碼點之間的對應關係就是UCS-2(Universal Character Set coded in 2 octets)。 顧名思義,UCS-2是用兩個位元組來表示程式碼點,其取值範圍為 U+0000~U+FFFF。

     為了能表示更多的文字,人們又提到了UCS-4,即用四個位元組表示程式碼點。它的範圍為U+00000000~U+7FFFFFFF,其中U+00000000~U+0000FFFF和UCS-2是一樣的。

     要注意,UCS-2和UCS-4只規定了程式碼點和文字之間的對應關係,並沒有規定程式碼點在計算機中如何儲存。規定儲存方式的稱為UTF(Unicode Transformation Format),其中應用較多的就是UTF-16和UTF-8了。

  (3) UTF-16和UTF-32

    a.UTF-16

      UTF-16由RFC2781規定,它使用兩個位元組來表示一個程式碼點。

      不難猜到,UTF-16是完全對應於UCS-2的,即把UCS-2規定的程式碼點通過Big Endian或Little Endian方式直接儲存下來。UTF-16包括三種:UTF-16,UTF-16BE(Big Endian),UTF-16LE(Little Endian)。

       UTF-16BE和UTF-16LE不難理解,而UTF-16就需要通過在檔案開頭以名為BOM(Byte Order Mark)的字元來表明檔案時Big Endian還是Little Endian。BOM為U+FEFF這個字元。

       其實BOM是個小聰明的想法。由於UCS-2沒有定義U+FFFE,因此只要出現FF FE或者FE FF這樣的位元組序列,就可以認為它是U+FEFF,並且可以判斷出是Big Endian還是Little Endian。

       舉個例子,“ABC”這三個字元用各種方式編碼後的結果如下:

        UTF-16BE                     00 41 00 42 00 43

        UTF-16LE                      41 00 42 00 43 00

        UTF-16(Big Endian)       FE FF 00 41 00 43 00 43

        UTF-16(Little Endian)     FF FE 41 00 42 00 43 00

        UTF-16(不帶BOM)         00 41 00 42 00 43

        Windows平臺下預設的Unicode編碼為Little Endian的UTF-16(即上述的FF FE 41 00 42 00 43 00)。你可以開啟記事本,寫上ABC,然後儲存,再用二進位制編輯器看看它的編碼結果。

        

        另外,UTF-16還能表示一部分的UCS-4程式碼點-----U+10000~U+10FFFF。表示演算法比較複雜,簡單說明如下: 1.從程式碼點U中減去0x10000,得到'U'。這樣U+10000~U+10FFFF就變成了0x00000~0xFFFFF。2.用20位二進位制數表示U’。

        U’=yyyyyyyyyyxxxxxxxxxx 3. 將前10位和後10位用W1和W2表示,W1=110110yyyyyyyyyy,W2=110111xxxxxxxxxx,則 W1 = D800~DBFF,W2 = DC00~DFFF。

        例如,U+12345表示為 D8 08 DF 45(UTF-16BE),或者08 D8 45 DF(UTF-16LE)。

        但是由於這種演算法的存在,造成UCS-2中的 U+D800~U+DFFF 變成了無定義的字元。

     b.UTF-32

         UTF-32用四個位元組表示程式碼點,這樣就可以完全表示UCS-4的所有程式碼點,而無需像UTF-16那樣使用複雜的演算法。 與UTF-16類似,UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三種編碼,UTF-32也同樣需要BOM字元。 僅用’ABC’舉例:

UTF-32BE                   00 00 00 41 00 00 00 42 00 00 00 43

UTF-32LE                   41 00 00 00 42 00 00 00 43 00 00 00

UTF-32(Big Endian)    00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43

UTF-32(Little Endian)  FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00

UTF-32(不帶BOM)       00 00 00 41 00 00 00 42 00 00 00 43

       c.UTF-8

          UTF-16和UTF-32的一個缺點就是它們固定使用兩個或四個位元組, 這樣在表示純ASCII檔案時會有很多00位元組,造成浪費。 而RFC3629定義的UTF-8則解決了這個問題。

          UTF-8用1~4個位元組來表示程式碼點。表示方式如下:

UCS-2(UCS-4) 位序列 第一位元組 第二位元組 第三位元組 第四位元組
U+0000 .. U+007F 00000000-0xxxxxxx 0xxxxxxx      
U+0080 .. U+07FF 00000xxx-xxyyyyyy 110xxxxx 10yyyyyyy    
U+0800 .. U+FFFF xxxxyyyy-yyzzzzzz 1110xxxx 10yyyyyy 10zzzzzz  
U+10000 .. U+10FFFF 00000000-000wwwxx-xxxxyyyy-yyzzzzzz 11110www 10xxxxxx 10yyyyyy 10zzzzzz

           可見,ASCII字元(U+0000~U+007F)部分完全使用一個位元組,避免了儲存空間的浪費。 而且UTF-8不再需要BOM位元組。

           另外,從上表中可以看出,單位元組編碼的第一位元組為[00-7F],雙位元組編碼的第一位元組為[C2-DF], 三位元組編碼的第一位元組為[E0-EF]。這樣只要看到第一個位元組的範圍就可以知道編碼的位元組數。 這樣也可以大大簡化演算法。