【Encoding】UTF-8編碼規則

阿新 • • 發佈：2019-01-17

UTF-8是一種變長位元組編碼方式。對於某一個字元的UTF-8編碼，如果只有一個位元組則其最高二進位制位為0；如果是多位元組，其第一個位元組從最高位開始，連續的二進位制位值為1的個數決定了其編碼的位數，其餘各位元組均以10開頭。UTF-8最多可用到6個位元組。
如表：

位元組數	格式
1位元組	0xxxxxxx
2位元組	110xxxxx 10xxxxxx
3位元組	1110xxxx 10xxxxxx 10xxxxxx
4位元組	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5位元組	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6位元組	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

因此UTF-8中可以用來表示字元編碼的實際位數最多有31位，即上表中x所表示的位。除去那些控制位（每位元組開頭的10等），這些x表示的位與UNICODE編碼是一一對應的，位高低順序也相同。
實際將UNICODE轉換為UTF-8編碼時應先去除高位0，然後根據所剩編碼的位數決定所需最小的UTF-8編碼位數。
因此那些基本ASCII字符集中的字元（UNICODE相容ASCII）只需要一個位元組的UTF-8編碼（7個二進位制位）便可以表示。
對於上面的問題，程式碼中給出的兩個位元組是：

十六進位制：C0 B1
二進位制：11000000 10110001
提取出對應的UNICODE編碼：
00000 110001
可以看出此編碼並非“標準”的UTF-8編碼，因為其第一個位元組的“有效編碼”全為0，去除高位0後的編碼僅有6位。由前面所述，此字元僅用一個位元組的UTF-8編碼表示就夠了。
Java在把字元還原為UTF-8編碼時，是按照“標準”的方式處理的，因此我們得到的是僅有1個位元組的編碼。

【Encoding】UTF-8編碼規則

【Encoding】UTF-8編碼規則

【ASP】UTF-8編碼的vbscript頁面，除錯資訊的亂碼問題

【走過的彎路】UTF-8編碼轉GB2312

UTF-8編碼規則解析

UTF-8編碼規則（轉）

【okhttp】Post請求設定utf-8編碼（解決漢語請求亂碼問題）

刨根究底字符編碼之十一——UTF-8編碼方式與字節序標記

【ES】學習8-聚合1

php開啟mbstring擴展並設置支持utf-8編碼

在MyEclipse中設置jsp頁面為默認utf-8編碼

ASCII UTF-8 編碼

【python】聲明編碼的格式

Python中的Unicode編碼和UTF-8編碼

【轉】 H.264編碼原理以及I幀B幀P幀

解決excel打開utf-8編碼csv文件亂碼的bug

【探路者】貢獻分分配規則

【NetApp】DataOntap 8.1 NMSDK

JavaScript進行UTF-8編碼與解碼

【java】java基本編碼規範

C# MD5 32位加密 UTF-8編碼

【Encoding】UTF-8編碼規則

相關推薦