python2 中文編碼問題

阿新 • • 發佈：2019-01-18

在python程式碼中，寫入中文是經常出現亂碼和錯誤。

============知識背景============

1、首先看一下系統預設編碼

就是說系統預設編碼形式為ascii。

2、現在瞭解一下ASCII和非ASCII編碼

在計算機內部，所有的資訊最終都表示為一個二進位制的字串。每一個二進位制位（bit）有0和1兩種狀態，因此八個二進位制位就可以組合出256種狀態，這被稱為一個位元組（byte）。上個世紀60年代，美國製定了一套字元編碼，對英語字元與二進位制位之間的關係，做了統一規定。這被稱為ASCII碼，一直沿用至今。ASCII碼一共規定了128個字元的編碼。

英語用128個符號編碼就夠了，但是用來表示其他語言，128個符號是不夠的。於是出現用更多位元組編碼比如：簡體中文常見的編碼方式是GB2312，使用兩個位元組表示一個漢字，所以理論上最多可以表示256x256=65536個符號。這些屬於非ASCII編碼。

3、unicode

正如上一節所說，世界上存在著多種編碼方式，同一個二進位制數字可以被解釋成不同的符號。因此，要想開啟一個文字檔案，就必須知道它的編碼方式，否則用錯誤的編碼方式解讀，就會出現亂碼。unicode編碼，將世界上所有的符號都納入其中。每一個符號都給予一個獨一無二的編碼。

但是，需要注意的是，unicode只是一個符號集，它只規定了符號的二進位制程式碼，卻沒有規定這個二進位制程式碼應該如何儲存。這樣帶來的問題就是，計算機不知道編碼是unicode還是ascii。隨後unicode出現了多種儲存方式。

4、utf-8

UTF-8就是在網際網路上使用最廣的一種unicode的實現方式。其他實現方式還包括UTF-16和UTF-32，不過在網際網路上基本不用。重複一遍，這裡的關係是，UTF-8是Unicode的實現方式之一。

utf-8和unicode可以互相轉化，比如：漢字“嚴”的Unicode碼是4E25（100111000100101），UTF-8編碼是E4B8A5（11100100 10111000 10100101）。

在windows下，最簡單的轉化方式是記事本。用記事本開啟檔案，檔案》另存為，最下邊“編碼”可以改變編碼儲存方式：

其中：

1）ANSI是預設的編碼方式。對於英文檔案是ASCII編碼，對於簡體中文檔案是GB2312編碼。

2）Unicode編碼指的是UCS-2編碼方式，即直接用兩個位元組存入字元的Unicode碼。這個選項用的little endian格式。

3）Unicode big endian編碼與上一個選項相對應。我在下一節會解釋little endian和big endian的涵義。

4）UTF-8編碼，也就是上一節談到的編碼方法。

============python編碼============

python內部是unicode編碼，也就是說通常情況下，python用unicode作為轉換中間量，decode作用為將其他編碼字串轉換為unicode，接著encode將unicode編碼轉換為其他編碼。一段例子：

# -*- coding: utf-8 -*-

s="你好"# 整個檔案是UTF-8編碼，所以這裡的字串也是UTF-8
u=s.decode("utf-8")# 將utf-8的str轉換為unicode
g=u.encode('gbk')# 將unicode轉換為str，編碼為GBK
print type(s),"len=",len(s)# 輸出：<type ‘str‘> len= 6，utf-8每個漢字佔3位元組
print type(u),"len=",len(u)# 輸出：<type ‘str‘> len= 6，unicode統計的是字數
print type(g),"len=",len(g)# 輸出：g = u.encode(‘GBK‘)，GBK每個漢字佔2位元組
print s# 在GBK/ANSI環境下（如Windows），輸出亂碼，#因為此時螢幕輸出會被強制理解為GBK；
print g# 在Windows下輸出“你好”

ss = '下午'.decode('utf-8')
print ss
print type(ss)

輸出為：

這樣，我們可以看到，字串utf-8和unic的相互轉化和內部儲存編碼。

============總結============

總結：

unicode是支援所有文字的統一編碼，但一般只用作文字的內部表示，檔案、網頁（也是檔案）、螢幕輸入輸出等處均需使用具體的外在編碼，如GBK、UTF-8等；

encode和decode都是針對unicode進行“編碼”和“解碼”，所以encode是unicode->str的過程，decode是str->unicode的過程；

unicode和str是一對孿生兄弟，來自basestring，所以用isinstance(s, basestring)來判斷s是否為字串。

python2 中文編碼問題

python2 中文編碼問題小結

python2 中文編碼問題

python2.7解決中文編碼問題

python2.7 編碼問題整理

.Net Core中文編碼問題整理

Apache服務器URL訪問中文編碼設置

如何讓sublime text 2/3支持中文編碼

解決全站字符亂碼（POST和GET中文編碼問題）

windows修改PowerShell（命令提示符）默認中文編碼方式

Python的解釋器和中文編碼

從python2,python3編碼問題引伸出的通用編碼原理解釋

Python 中文編碼

中文編碼及萬國碼

python2.x編碼問題實例

CentOS中文編碼怎麽設置?

mysql之全球化和本地化：字符集、校對集、中文編碼問題

IDA中文編碼設置

dos中文編碼問題

CsQuery中文編碼亂碼問題

Python學習---JSON補充內容[中文編碼 + dumps解析]

python2 中文編碼問題

相關推薦