通過檢視編碼對映表確定編碼型別

阿新 • • 發佈：2018-11-07

如何判斷字串是由何種編碼編寫的呢？最簡單粗暴的方法是靠位元組個數來判斷，直接上程式碼：

# _*_coding:utf-8_*_

s = '程式設計'

s1 = s.decode('utf-8')  # 將s抓換成換成unicode編碼
s2 = s1.encode('utf-8')  # 將s1從unicode轉換成utf-8
s3 = s1.encode('gbk')  # 將s2從unicode換換成gbk

print(s2, s3, s1)  # ('\xe7\xbc\x96\xe7\xa8\x8b', '\xb1\xe0\xb3\xcc', u'\u7f16\u7a0b')

需要注意的事s1,s2,s3放在一起就會打印出16進位制位元組，這是內建方法。第一個佔3個位元組可以推斷出是utf-8,第二個佔2位元組可以推斷出是gbk。第三個可以在unicode對映表中直接查出來。其中u代表unicode,每2個代表1個位元組。

編，7f16

程，7a0b

程式設計對應的gbk編碼是\xb1\xe0\xb3\xcc，但是和7f16,7a0b對不上，把他們轉成二進位制並把開頭的1去掉(從高位元組變成低位元組)得到3160和334c。

# 編 7f16(unicode的值)  G0-3160(gbk的值)
# \xb1\xe0  1和0對上了 

# 
 b       1
# 1011    0001
# 把第一位變成0
# 0011    0001 -> 轉換成10進位制  3 1

# e       0
# 1110    0000
# # 把第一位變成0
# 0110    0000 -> 轉換成10進位制  6 0

# 程 7a0b  G0-334C
# xb3\xcc  3和c對上了

# b       3
# 1011    0011
# # 把第一位變成0
# 0011    0011 -> 轉換成10進位制 33

# c       c
# 1100    1100
# # 把第一位變成0
# 0100    1100 -> 轉換成10進位制 4c

可以看到對上了。原因是GBK相容ASCII碼，1個位元組是英文，2個位元組是中文。那麼2個位元組連到一起的話，如何判斷是中文還是英文呢？由於在ASCII碼中，0-127是常用的，128-255是一些亂七八糟、不常用的擴充套件表，所以，乾脆從128開始就代表中文。所以，2個位元組連在一起，如果每個位元組的第1位(也就是相當於128的那個2進位制位)如果是1，就代表這是個中文，這個首位是128的位元組被稱為高位元組。那為什麼\xb1\xe0要把128所在的位去掉(把1變成0)才能與unicode的G0-3160對上呢？這隻能說是unicode在對映表的表達上直接忽略了高位元組，但真正對映的時候，肯定還是需要用高位元組的。

通過檢視編碼對映表確定編碼型別

通過檢視編碼對映表確定編碼型別

通過查看編碼映射表確定編碼類型

mysql常用的一些命令,用於檢視資料庫、表、欄位編碼

MySQL中使用SQL語句檢視某個表的編碼

設計一個演算法，通過一趟遍歷確定長度為n的單鏈表中值最大的結點。

《Java》Java“字串操作”實際應用——形成GBK編碼和UTF-8編碼的文字檔案，通過其二進位制資料觀察兩種編碼的不同

通過資料庫中的表，使用 MyEclipse2017的反向生成工具-->hibernate反轉引擎引擎(MyEclipse2017自帶的外掛) 來反轉生成實體類和對應的對映檔案

mysql中修改表的預設編碼和表中欄位的編碼

mysql資料庫修改資料庫編碼，欄位編碼與表編碼

MySQL：檢視全域性變數和修改編碼

通過eslint統一前端IDE的編碼風格，避免git衝突

mysql改變表的編碼字符集，將utf8改為utf8mb4

Python 3 字串的編碼解碼，以及str型別、bytes型別

JPA 通過註解自動生成表新增欄位名、型別、註釋

Html表單提交到Servlet輸出到頁面亂碼 Html使用的編碼是UTF-8編碼顯示頁面，之後使用form表單提交欄位到Servlet中，Servlet將利用getParamer方法獲得fo

手機IMSI號碼編碼規則表（轉載）

linux檢視系統編碼和修改系統編碼的方法

生成訂單編號，編號格式(由編號型別編碼+編號建立平臺編碼+6位日期+時間戳後4位+4位隨機陣列成)，生成四位或者N位隨機數字

Unicode字元編碼分佈表[全部]

maven 編碼 UTF-8 的不可對映字元 maven 編碼 GBK 的不可對映字元

通過檢視編碼對映表確定編碼型別

相關推薦