1. 程式人生 > >python的編碼型別轉換

python的編碼型別轉換

1:python和unicode

為了正確處理多語言文字,Python2.0版後引入了Unicode字串。

2:python中的print

雖然python內部需要將文字編碼轉換為unicode編碼來處理,而終端顯示工作則由傳統的Python字串完成(實際上,Python的print語句根本無法打印出雙位元組的Unicode編碼字元)。

python的print會對輸出的unicode編碼(對其它非unicode編碼,print會原樣輸出)做自動的編碼轉換(輸出到控制檯時),而檔案物件的write方法就不會做,因此,當一些字串用print輸出正常時,write到檔案確不一定和print的一樣。

在linux下是按照環境變數來轉換的,在linux下使用locale命令就可以看到。print語句它的實現是將要輸出的內容傳送了作業系統,作業系統會根據系統的編碼對輸入的位元組流進行編碼。

>>>str='學習python'

>>> str
'\xe5\xad\xa6\xe4\xb9\xa0python'  #asII編碼
>>> print str
學習python

>>> str=u'學習python'
>>> str             ####unicode編碼
'\xe5u\xad\xa6\xe4\xb9\xa0python'

3: python中的decode

將其他字符集轉化為unicode編碼(只有中文字元才需要轉換)

>>> str='學習'
>>> ustr=str.decode('utf-8')
>>> ustr
u'\u5b66\u4e60' 

這樣就對中文字元進行了編碼轉換,可用python進行後續的處理;(如果不轉換的話,python會根據機器的環境變數進行預設的編碼轉換,這樣就可能出現亂碼)

4:python中的encode

將unicode轉化為其它字符集

>>> str='學習'
>>> ustr=str.decode('utf-8')


>>> ustr
u'\u5b66\u4e60' 

>>> ustr.encode('utf-8') 
'\xe5\xad\xa6\xe4\xb9\xa0'

>>> print ustr.encode('utf-8')
學習