python編碼問題總結

阿新 • • 發佈：2018-10-10

解決怎麽磁盤一行 lin 技術分享地方 local 判斷

最近利用python抓取一些網上的數據，遇到了編碼的問題。非常頭痛，總結一下用到的解決方案。

　　fencoding輸出格式 {‘confidence‘: 0.96630842899499614, ‘encoding‘: ‘GB2312‘} ，只能判斷是否為某種編碼的概率。比較準確的結果了。輸入參數為str類型。

一般流程是str利用decode方法根據str的編碼將其解碼為unicode字符串類型，然後利用encode根據特定的編碼將unicode字符串類型轉換為特定的編碼。python中str和unicode屬於兩種不同的類型，如下。

技術分享圖片

系統編碼：默認寫源碼的編輯器的編碼方式。它代表源碼文件內的所有內容都是根據詞方式編碼成二進制碼流。存入到磁盤中的。linux下通過locale命令查看。

python編碼：指python內設置的解碼方式。如果不設定的話，python默認的是ascii解碼方式。如果python源代碼文件中不出現中文的話，這個地方怎麽設定應該不會問題。

設定方法：在源碼文件開頭（一定是第一行）：#-*-coding:UTF-8-*-，源碼文件的設置解碼方式是UTF-8 或者

文件編碼：文本的編碼方式，linux下vim利用set fileencoding查看。

技術分享圖片

比如print s, s類型為str，linux系統下系統默認編碼為utf8編碼，s在輸出前就應該編碼為utf8。如果s為gbk編碼就應該這樣輸出。print s.decode(‘gbk‘).encode(‘utf8‘)才能輸出中文。

window下面情況相同，window默認編碼為gbk編碼，所以s輸出前必須編碼為gbk。

python編碼問題總結