1. 程式人生 > >Python2和Python3之間關於字串編碼處理的差別

Python2和Python3之間關於字串編碼處理的差別

0x00 字元的編碼

計算機畢竟是西方國家的發明,最開始並沒有想到會普及到全世界,只用一個位元組中的7位(ASCII)來表示字元對於現在龐大的文字數量來說顯然不夠,所以先後經歷了好幾套編碼方案,不同國家和地區又有自己的方案,造成了現在諸多的歷史遺留問題。具體講述編碼原理請看這篇文章:PYTHON編碼的前世今生

0x01 Python中的字串

Python有兩種不同的字串,一種儲存文字,一種儲存位元組。對於文字,Python內部採用Unicode儲存,而位元組字串顯示原始位元組序列或者ASCII。

什麼叫編碼(encode)?

按照字面意思和以往經驗,我要把這個文字或字串用“UTF-8”編碼,感覺上應該是對位元組資料進行編碼然後顯示正確的文字。大多數人都是這麼想的,可事實呢?

編碼的意思是將Unicode字元按照編碼規則(如UTF-8)編成位元組序列:

這裡寫圖片描述

有人此時會問,我用 print 語句打印出來怎麼是亂碼或者是中文,並不是位元組序列。這是因為你呼叫 print 語句的時候,預設進行了隱式解碼,為的是讓人類看見友好的字元資料 ,也就是預設的進行了str()包裝,想看見背後真正的十六進位制數,你需要呼叫魔術方法 _repr_()

什麼叫解碼(decode)?

對應的,解碼就是將位元組序列按照編碼規則(如UTF-8)解釋成unicode形式。

這裡寫圖片描述

這裡或許又會有疑問,編碼解碼都是十六進位制,那中文字元咋顯示的?
這又要結合你的環境了。看完我上面推薦的文章,你就會明白,Unicode只是一種標準,而具體的編碼才是實現方式。有了正確的Unicode編碼,僅僅代表你有了正確的英文文獻,想翻譯成中文,還得再轉換一次。而這一次轉換,是你的環境幫你完成。舉個例子,你開啟一個文件,發現是亂碼,多半是文字編輯器的解碼方式有問題,換個解碼規則就好了。

0x02 Python2 和 Python3 之間的區別

Python3 一切都很美好

在Python3當中,文字字串型別(使用Unicode資料儲存)被命名為 str , 位元組字串型別被命名為 bytes 。一般情況下,例項化一個字串會得到一個 str 物件 :

這裡寫圖片描述

所以現在很多人都說,Python3預設是Unicode,也就是這個意思。
如果你想得到bytes,那就在文字之前加上字首 b , 或者 encode 一下。

這裡寫圖片描述

所以,很顯然,str 物件有一個encode方法,bytes 物件有一個decode方法。

Python2 相當的操蛋,甚至會誤導你

在Python3中的 str 物件在Python2中叫做 unicode ,感覺很通俗對吧?但 bytes 物件在Python2中叫做 str

,對。。就是你平時用的 str , 預設的那個。。。

如果你想得到一個文字字串,你需要在字串之前加上字首 u 或者 decode 一下。

搞笑的還不止這麼點,Python2中的 str (位元組) 物件,竟然有一個 encode 方法!!!而且你別指望它有什麼特殊用處,它就是用來報錯的,永遠都別使用它!!!
同樣的,unicode (文字字元) 物件也有一個用來報錯的 decode 方法。
我們嘗試一下:

這裡寫圖片描述

不知道大家注意到錯誤資訊沒有,我們在進行解碼,規則是GBK,但它說 無法用 ascii 進行編碼 ,這是為什麼?

這就是Python2自作聰明為了對一個unicode物件執行解碼而進行的隱式編碼 ,等於以下程式碼:

b.encode('ascii').decode('GBK')

這就是為什麼很多人說,Python2的編碼很操蛋。

0x03 小結

如果你在用2.X,請養成在字串加上 u 字首的習慣,統一編碼UTF-8,如果windows控制檯或者Pycharm控制檯依舊出現亂碼,那多半是控制檯編碼不同,改過來就好。

參考書籍 《Python 高階程式設計》