1. 程式人生 > >爬取網頁是發現文字亂碼問題

爬取網頁是發現文字亂碼問題

這兩天開始學習爬蟲,發現爬取網站時,爬下來的原始碼裡面的文字內容亂碼,奇怪的是有的網站沒有亂碼,有的網站亂碼了,查詢資料時發現,這是由於每個網站的編碼方式差異造成的。

 

這個是爬取內涵段子時的原始碼,當列印網頁原始碼時,發現文字資訊亂碼:

然後我又試了下csdn的網站:

發現文字資訊並沒有亂碼

在網上查詢資料知道,每個網站的編碼方式不一樣,檢視每個網址的編碼方式可以開啟瀏覽器的管理者工具來檢視,以chrome為例,開啟F12管理者工具:

這樣可以看到CSDN網站上的編碼方式為UTF-8

內涵段子的編碼方式為GBK,而我使用的pycharm的編碼方式為UTF-8:

因此我爬取網頁的時候,CSDN上的文字沒有亂碼,而內涵段子的網頁文字發生了亂碼

=========================================================================

解決方法:

因為我的編碼器的編碼格式為UTF-8,但是網頁編碼方式為GBK,因為我要先將原始碼進行GBK解碼,然後再進行UTF編碼:

這樣就大功告成了!!!