python 編碼問題:'ascii' codec can't encode characters in position 的解決方案
報錯:
'ascii' codec can't encode characters in position 8-50: ordinal not in range(128)
Python在安裝時,預設的編碼是ascii,當程式中出現非ascii編碼時,python的處理常常會報這樣的錯UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),python沒辦法處理非ascii編碼的,此時需要自己設定將python的預設編碼,一般設定為utf8的編碼格式。
查詢系統預設編碼可以在直譯器中輸入以下命令:
Python程式碼
- >>>sys.getdefaultencoding()
設定預設編碼時使用:
Python程式碼
- >>>sys.setdefaultencoding('utf8')
可能會報AttributeError: 'module' object has no attribute 'setdefaultencoding'的錯誤,執行reload(sys),在執行以上命令就可以順利通過。
此時在執行sys.getdefaultencoding()就會發現編碼已經被設定為utf8的了,但是在直譯器裡修改的編碼只能保證當次有效,在重啟直譯器後,會發現,編碼又被重置為預設的ascii了,那麼有沒有辦法一次性修改程式或系統的預設編碼呢。
有2種方法設定python的預設編碼:
一個解決的方案在程式中加入以下程式碼:
Python程式碼
import sys
reload(sys)
sys.setdefaultencoding('utf8')
另一個方案是在python的Lib\site-packages資料夾下新建一個sitecustomize.py,內容為:
Python程式碼
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
此時重啟python直譯器,執行sys.getdefaultencoding(),發現編碼已經被設定為utf8的了,多次重啟之後,效果相同,這是因為系統在python啟動的時候,自行呼叫該檔案,設定系統的預設編碼,而不需要每次都手動的加上解決程式碼,屬於一勞永逸的解決方法。
另外有一種解決方案是在程式中所有涉及到編碼的地方,強制編碼為utf8,即新增程式碼encode("utf8"),這種方法並不推薦使用,因為一旦少寫一個地方,將會導致大量的錯誤報告,我曾經遇到這種情況,錯誤日誌壓縮之後尚有70多K,全都是這一個問題,讓人有很崩潰的感覺。