UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介紹

阿新 • • 發佈：2018-11-29

轉載地址:https://charlee.li/unicode-intro.html

基本知識

(1) 位元組和字元的區別

咦，位元組和字元能有什麼區別啊？不都是一樣的嗎？完全正確，但只是在古老的DOS時代。當Unicode出現後，位元組和字元就不一樣了。

位元組（octet）是一個八位的儲存單元，取值範圍一定是0～255。而字元（character，或者word）為語言意義上的符號，範圍就不一定了。例如在UCS-2中定義的字元範圍為0～65535，它的一個字元佔用兩個位元組。

(2) BigEndian和Little Endian

上面提到了一個字元可能佔用多個位元組，那麼這多個位元組在計算機中如何儲存呢？比如字元0xabcd，它的儲存格式到底是 AB CD，還是 CD AB 呢？

實際上兩者都有可能，並分別有不同的名字。如果儲存為 AB CD，則稱為Big Endian；如果儲存為 CD AB，則稱為Little Endian

。

具體來說，以下這種儲存格式為Big Endian，因為值(0xabcd)的高位(0xab)儲存在前面：

地址	值
0x00000000	AB
0x00000001	CD

相反，以下這種儲存格式為Little Endian：

地址	值
0x00000000	CD
0x00000001	AB

(2) UCS-2和UCS-4

Unicode是為整合全世界的所有語言檔案所誕生的。任何文字在Unicode中都對應一個值，這個值稱為程式碼點(code point)。程式碼點的值通常寫成U+ABCD的格式。而文字和程式碼點之間的對應關係就是UCS-2（Universal Character Set coded in 2 octets）。顧名思義，UCS-2是用兩個位元組來表示程式碼點，其取值範圍為 U+0000～U+FFFF。

為了能表示更多的文字，人們又提到了UCS-4,即用四個位元組表示程式碼點。它的範圍為U+00000000~U+7FFFFFFF,其中U+00000000~U+0000FFFF和UCS-2是一樣的。

要注意，UCS-2和UCS-4只規定了程式碼點和文字之間的對應關係，並沒有規定程式碼點在計算機中如何儲存。規定儲存方式的稱為UTF(Unicode Transformation Format),其中應用較多的就是UTF-16和UTF-8了。

(3) UTF-16和UTF-32

a.UTF-16

UTF-16由RFC2781規定，它使用兩個位元組來表示一個程式碼點。

不難猜到，UTF-16是完全對應於UCS-2的，即把UCS-2規定的程式碼點通過Big Endian或Little Endian方式直接儲存下來。UTF-16包括三種:UTF-16,UTF-16BE(Big Endian),UTF-16LE(Little Endian)。

UTF-16BE和UTF-16LE不難理解，而UTF-16就需要通過在檔案開頭以名為BOM(Byte Order Mark)的字元來表明檔案時Big Endian還是Little Endian。BOM為U+FEFF這個字元。

其實BOM是個小聰明的想法。由於UCS-2沒有定義U+FFFE,因此只要出現FF FE或者FE FF這樣的位元組序列，就可以認為它是U+FEFF,並且可以判斷出是Big Endian還是Little Endian。

舉個例子，“ABC”這三個字元用各種方式編碼後的結果如下:

UTF-16BE 00 41 00 42 00 43

UTF-16LE 41 00 42 00 43 00

UTF-16(Big Endian) FE FF 00 41 00 43 00 43

UTF-16(Little Endian) FF FE 41 00 42 00 43 00

UTF-16(不帶BOM) 00 41 00 42 00 43

Windows平臺下預設的Unicode編碼為Little Endian的UTF-16(即上述的FF FE 41 00 42 00 43 00)。你可以開啟記事本，寫上ABC，然後儲存，再用二進位制編輯器看看它的編碼結果。

另外，UTF-16還能表示一部分的UCS-4程式碼點-----U+10000~U+10FFFF。表示演算法比較複雜，簡單說明如下: 1.從程式碼點U中減去0x10000,得到'U'。這樣U+10000~U+10FFFF就變成了0x00000~0xFFFFF。2.用20位二進位制數表示U’。

U’=yyyyyyyyyyxxxxxxxxxx 3. 將前10位和後10位用W1和W2表示，W1=110110yyyyyyyyyy，W2=110111xxxxxxxxxx，則 W1 = D800～DBFF，W2 = DC00～DFFF。

例如，U+12345表示為 D8 08 DF 45（UTF-16BE），或者08 D8 45 DF（UTF-16LE）。

但是由於這種演算法的存在，造成UCS-2中的 U+D800～U+DFFF 變成了無定義的字元。

b.UTF-32

UTF-32用四個位元組表示程式碼點，這樣就可以完全表示UCS-4的所有程式碼點，而無需像UTF-16那樣使用複雜的演算法。與UTF-16類似，UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三種編碼，UTF-32也同樣需要BOM字元。僅用’ABC’舉例：

UTF-32BE 00 00 00 41 00 00 00 42 00 00 00 43

UTF-32LE 41 00 00 00 42 00 00 00 43 00 00 00

UTF-32(Big Endian) 00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43

UTF-32(Little Endian) FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00

UTF-32(不帶BOM) 00 00 00 41 00 00 00 42 00 00 00 43

c.UTF-8

UTF-16和UTF-32的一個缺點就是它們固定使用兩個或四個位元組，這樣在表示純ASCII檔案時會有很多00位元組，造成浪費。而RFC3629定義的UTF-8則解決了這個問題。

UTF-8用1～4個位元組來表示程式碼點。表示方式如下：

UCS-2(UCS-4)	位序列	第一位元組	第二位元組	第三位元組	第四位元組
U+0000 .. U+007F	00000000-0xxxxxxx	0xxxxxxx
U+0080 .. U+07FF	00000xxx-xxyyyyyy	110xxxxx	10yyyyyyy
U+0800 .. U+FFFF	xxxxyyyy-yyzzzzzz	1110xxxx	10yyyyyy	10zzzzzz
U+10000 .. U+10FFFF	00000000-000wwwxx-xxxxyyyy-yyzzzzzz	11110www	10xxxxxx	10yyyyyy	10zzzzzz

可見，ASCII字元（U+0000～U+007F）部分完全使用一個位元組，避免了儲存空間的浪費。而且UTF-8不再需要BOM位元組。

另外，從上表中可以看出，單位元組編碼的第一位元組為[00-7F]，雙位元組編碼的第一位元組為[C2-DF]，三位元組編碼的第一位元組為[E0-EF]。這樣只要看到第一個位元組的範圍就可以知道編碼的位元組數。這樣也可以大大簡化演算法。

UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介紹

php 多語言(UTF-8編碼)導出Excel、CSV亂碼解決辦法之導出UTF-8編碼的Excel、CSV

如何使GCC支援中文(utf-8)的變數名、函式名？

TensorFlow學習筆記（UTF-8 問題解決 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte）

響應報文utf-8為什麼設定了charset=utf-8，還編碼錯誤？

utf-8轉gb2312,gb2312轉utf-8

UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介紹

細說：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4

所謂編碼--泛談ASCII、Unicode、UTF8、UTF16、UCS-2等編碼格式

Python3.7、Eclipse 4.5、 Java 8、 PyDev 5.2.0、 selenium-3.14.0環境搭建

python中的字符串編碼問題——2.理解ASCII碼、ANSI碼、Unicode編碼、UTF-8編碼

VC下2、4、8、16、24、32位點陣圖的資料解析與顯示

字元編碼之UCS-2與Utf-8

將UCS-2 Little Endian(即 utf-16)編碼的txt檔案批量轉化為utf-8編碼（python）

utf-8編碼的字串轉成unicode(ucs-4)編碼的字串

UTF-8和GBK編碼之間的區別(頁面編碼、數據庫編碼區別)以及在實際項目中的應用

所有的字符編碼由System.Text.Encoding類獲取所有的字符編碼如Unicode編碼、 GB18030編碼、(UTF-8) 簡體中文(GB2312)

5.1 vim介紹 5.2 vim顏色顯示和移動光標 5.3 vim一般模式下移動光標 5.4 vim一般模式下復制、剪切和粘貼

編碼格式簡介：ASCII碼、ANSI、GBK、GB2312、GB18030和Unicode、UTF-8，BOM頭

章節號比較排序（A.1、B.2.1、C.4）

Java 字符編碼 ASCII、Unicode和UTF-8

UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介紹

相關推薦