解決Python2.x編碼之殤

阿新 • • 發佈：2019-02-03

　Python編碼問題一直困擾了我許久，之前有過一些總結，但並不系統，比較凌亂。當然python2.x編碼問題本身，便是剪不斷理還亂。本篇將系統介紹python2.x程式設計中會遇到的一些編碼問題，並給出解決方案。基於對編碼問題的摸索瞭解，我也嘗試寫了一個編碼轉換模組Transcode，應該能解決絕大部分新手的疑難雜症。當然，python大神可以繞道而行，至於使用3.x的朋友，以後將會成文介紹。

　　python程式設計中會經常遇到作業系統編碼、檔案編碼、控制檯輸入輸出編碼、網頁編碼、原始碼編碼、python編碼，本文將會逐一介紹。首先我們來看看一些常見的編碼情況：

print sys.getdefaultencoding()    #系統預設編碼 

print sys.getfilesystemencoding() #檔案系統編碼 

print locale.getdefaultlocale()   #系統當前編碼 

print sys.stdin.encoding          #終端輸入編碼 

print sys.stdout.encoding         #終端輸出編碼

將以上這段程式碼在windows與linux系統下分別執行，檢視輸出結果。
windows終端結果:

ascii 

mbcs 

('zh_CN', 'cp936') 

cp936 

cp936

Linux終端結果：

ascii 

UTF-8 

('zh_CN', 'UTF-8') 

UTF-8 

UTF-8

作業系統編碼

　　作業系統預設編碼可以通過sys.getdefaultencoding()函式獲取，可以看到windows與linux下預設都為ascii編碼，而我們知道ascii編碼不支援中文。那麼作業系統編碼將在python程式的何處會被用到呢？何時又會引發血案？

觸發異常點

　　經過測試，我發現當需要將unicode格式的字串存入到檔案時，python內部會預設將其先轉換為Str格式的系統編碼，然後再執行存入步驟。而在這過程中，容易引發ascii異常。
例項證明：

#! -- coding:utf-8 -- 

a=u"中文" 

f=open("test.txt","w") 

f.write(a)

報錯異常資訊：UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-1……
說明：因為ascii不支援中文，而變數a為unicode格式的中文字串，因此無法進行編碼而引發異常。

解決方案

設定系統編碼為utf-8或者gbk。

import sys 

reload(sys) 

sys.setdefaultencoding('gbk')

說明：在windows下將其設定為gbk，在linux在設定為utf-8.

終端編碼

　　windows下終端指的是控制檯，在控制檯上輸入輸出有著其本身的編碼格式，如windows控制檯輸入輸出編碼都為cp936。原諒我是第一次看到此編碼，於是上網查了會，發現其實它就是常見的GBK編碼；而linux終端的輸入輸出編碼都為utf-8。如果我們編寫的程式，不會再終端輸入輸出任何內容，則可以忽略此編碼，如若不然終端編碼將會非常重要。

亂碼點

我們在終端執行python指令碼時，經常會遇到輸出中文亂碼，而這往往是因為輸出的字串本身編碼與控制檯編碼不一致。
例項證明：

#! -- coding:utf-8 -- 

a="中文"  #定義一個變數，預設為Str，utf-8編碼 

print a 

print type(a)

windows控制檯輸出結果：

浣犲ソ 

<type 'str'>

linux終端輸出結果：

中文 

<type 'str'>

造成這種差異的原因在於windows控制檯為gbk編碼，而變數a本身為utf-8編碼。

解決方案

#! -- coding:utf-8 -- 

a='你好' 

b=a.decode("utf-8").encode("gbk") 

print b

將變數a從utf-8編碼轉換為gbk編碼。

python編碼

　　python2.x從外部獲取的內容都是string編碼，其內部分為String編碼與Unicode編碼，而String編碼又分為UTF-8，GBK，GB2312等等。因此為了避免不同編碼造成的報錯，python內部最好都轉化為unicode編碼，在輸出時再轉化為str編碼。可以用encode()/decode()函式，將string與unicode編碼互換。

觸發異常點

基本在於python內部變數編碼與控制檯編碼，或者其他編碼相結合時觸發。
例項證明：

#! -- coding:utf-8 -- 

a="中文"  #定義一個變數，預設為str，utf-8編碼 

print a 

print type(a)

執行結果：

浣犲ソ 

<type 'str'>

　　說明：windows下控制檯輸入輸出都是gbk編碼格式，而程式碼中定義的變數a為str，utf-8格式，所以會出現亂碼。如果想建立一個unicode編碼字串的變數，則可以a=u”123”，在雙引號前面加上一個u，表示a為unicode編碼。

解決方案

#! -- coding:utf-8 -- 

a='你好' 

print a.decode("utf-8").encode("gbk")

　　說明：首先我們定義的變數a是str格式，編碼為utf-8的字串，我們要將之轉化為str格式，GBK編碼的字串。在python內部無法直接轉化，需要藉助decod()與encode()函式。decode()函式先將str格式的字串a轉化為unicode，再將unicode編碼為str格式GBK。而在Unix系統下，不存在這個問題，因為都是utf-8編碼，不會存在亂碼。print語句預設會將unicode編碼的字串，encode為相應系統的str編碼並輸出（windows下為gbk,unix下為utf-8）,因此不用擔心print unicode編碼字串會報錯。

原始碼編碼

原始碼編碼指的是python程式本身的編碼，預設為ascii。

觸發異常點

　　python程式本身要被直譯器解析執行，需要先被轉化為二進位制程式碼。而在這過程中容易引發異常，原因同樣是ascii不支援中文，因此當python程式中出現中文時，哪怕是註釋，也會引發ascii異常。
例項證明：

print "中文"  #中文註釋

報錯：SyntaxError: Non-ASCII character ‘\xe7’……

解決方案

#! -- coding:utf-8 --

python程式開頭加上這句程式碼，指定python原始碼編碼格式為utf-8。

檔案編碼

　　檔案編碼指的是，python程式從檔案中獲取的內容的編碼格式。可以用sys.getfilesystemencoding()函式獲取，windows下為mbcs，linux下為utf-8。至於mbcs，是一種多位元組編碼（沒搞很明白）。

觸發異常點（讀取檔案內容）

當python程式從檔案中獲取內容，並輸出時，容易觸發異常。
例項證明：

#! -- coding:utf-8 -- 

f=open("test.txt","r") 

content=f.read() 

print type(content) 

print content

執行結果：

<type 'str'> 

你好

　　可以看到windows下，從檔案中讀取的編碼格式為Str，GBK格式（因為控制檯輸出沒有中文亂碼）；而在Unix下為Str，Utf-8格式。從輸出內容來說，並沒有觸發異常，然而當這些內容與python程式自身內容相結合時，容易觸發異常。

解決方案

在windows下，最好將檔案內容轉為unicode，可以使用codecs：

f=codecs.open("test.txt", encoding='gbk').read()

將格式為gbk的檔案內容轉化為unicode格式，當然也可以直接使用open(“”,”r”).read().decode(“gbk”)

觸發異常點（寫入檔案內容）

參考作業系統編碼觸發異常點，即將中文unicode字元寫入檔案時，容易觸發異常。

解決方案

參考作業系統編碼解決方案，或者手動將unicode編碼轉換為str編碼。
例項證明：

#! -- coding:utf-8 -- 

a=u"中文"  #a為unicode格式編碼 

f=open("test.txt","w") 

f.write(a.encode("gbk"))

當然如果變數a本身就是Str則不會報錯，只是utf-8編碼的內容寫入windows檔案中，顯示會亂碼。

網頁編碼

　　網頁編碼，通常在寫爬蟲的時候經常遇到，再結合系統編碼，python編碼，檔案編碼，往往會搞得一團亂。在程式中我們應該分別處理這些編碼，在python內部全部轉化為unicode。那麼網頁編碼又有哪些格式呢？
常見格式：utf-8，gbk，gb2312

觸發異常點

還是在於從網頁中獲取的原始碼編碼與終端編碼，甚至python內部編碼不一致的情況。
例項證明：

#!coding=utf-8 

import urllib2 

body=urllib2.urlopen('http://thief.one').read() 

print type(body) 

print body

執行結果：

<type 'str'> 

body中文顯示亂碼

說明：這個網站的編碼是utf-8，而且python從網頁上爬取的內容都為Str格式，在windows控制檯下輸出會亂碼。

解決方案

　　依照之前做法，先將其轉化為unicode。而相應的正則也可以為unicode編碼，如：res=r’’+u”新成員”。可以通過chardet模組判斷網頁編碼型別，返回的是一個帶概率的字典。

編碼判斷

判斷字串編碼

isinstance(obj, (str, unicode))

返回True或者False

判斷網頁編碼

import chardet 

import urllib2 

body=urllib2.urlopen("http://thief.one").read() 

chardet.detect(body)

判斷編碼格式，會有百分比，一般用來判斷網頁編碼比較好。

判斷系統編碼

print sys.getdefaultencoding()    #系統預設編碼 

print sys.getfilesystemencoding() #檔案系統編碼 

print locale.getdefaultlocale()   #系統當前編碼 

print sys.stdin.encoding          #終端輸入編碼 

print sys.stdout.encoding         #終端輸出編碼

python2.x編碼建議

請儘量在Linux系統上程式設計，綜上我們可以知道linux下較windows，編碼問題良好很多。
python程式碼內部請全部使用unicode編碼，在獲取外部內容時，先decode為unicode，向外輸出時再encode為Str
在定義變數或者正則時，也定義unicode字元，如a=u”中文”；res=r””+u”正則”。

其他疑難雜症

例項一：

a="\u8fdd\u6cd5\u8fdd\u89c4" 

print a

變數a的內容本身為unicode編碼，怎麼正常顯示輸入？
解決方案：

a="\u8fdd\u6cd5\u8fdd\u89c4" # unicode轉化為中文 

b=a.decode('unicode-escape') 

print b

　　如果閱讀完本章，增加了您對python編碼問題的認識，那我會感到欣慰，如有python編碼上的問題可以在下方留言。
　　如果閱讀完本章，您仍然不知如何解決python亂碼問題，沒關係，請繼續移步閱讀Transcode解決python編碼問題

　　為了能夠讓您重視，我不得不再次重申：解決python2.x編碼問題的關鍵，在於要明白無論從哪裡來的內容，在python內部流通時，都應該先轉換為unicode。（python3.x在這方面做了改進，並取得了很好的效果）

技術的探索，就好像編織故事一般，其樂趣在於偶爾能夠講述給別人聽，並獲得一些贊同！

解決Python2.x編碼之殤

作業系統編碼

觸發異常點

解決方案

終端編碼

亂碼點

解決方案

python編碼

觸發異常點

解決方案

原始碼編碼

觸發異常點

解決方案

檔案編碼

觸發異常點（讀取檔案內容）

解決方案

觸發異常點（寫入檔案內容）

解決方案

網頁編碼

觸發異常點

解決方案

編碼判斷

判斷字串編碼

判斷網頁編碼

判斷系統編碼

python2.x編碼建議

其他疑難雜症

相關推薦