1. 程式人生 > >爬蟲返回頁面亂碼處理

爬蟲返回頁面亂碼處理

最近寫了個小爬蟲,返回頁面是完全亂碼的,連Html結構都是亂碼,用chardet的detect方法判斷了下response.content,還是看不出返回的頁面是什麼編碼,經過多方查閱,get到一個新的技能(之前從沒用過這個庫)。。

import urllib3
import requests

http = urllib3.PoolManager()
r = http.request('GET', url)
print(chardet.detect(r.data))
print((r.data).decode('gb2312', 'ignore'))
return (r.data).decode('gb2312', 'ignore')

Note:

我用的是Python3,導包不成功的話可能還需你手動下載urllib3庫