python爬取網頁—網站編碼
阿新 • • 發佈:2019-01-01
在爬取網站之前需要檢視網頁的編碼方式,對應的,通過檢視網頁原始碼,在網站頁面配合按鍵F12 ctrl+F 搜尋"charset"可找到如下類似資訊:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">...
網頁抓取,要檢視編碼格式,發現是gbk格式的,抓取時候,你的python系統是不認識,你的sublime系統也是不認識的,這裡就需要把gbk格式解碼成系統認識的unicode編碼,解碼方式:a.decode('gbk'),他的意思是對a這個字串根據gbk的形式進行解碼為unicode,注意這裡是如果你打印出來,不一定就是你想要的中文,還需要指定編碼格式,a.encode('gbk')的意思是對a這個字串gbk編碼,上面提到這個a字串必須是unicode編碼前提下才能encode;encode後就會按照你想要的編碼格式輸出了。
如果的有網頁抓取不成功要考慮不是編碼的問題,另外requests.get(url,headers=...),有的還需要加入headers屬性才能相應成功響應。