1. 程式人生 > >python 爬蟲錯誤記錄

python 爬蟲錯誤記錄

1、UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcf in position 116: invalid continuation byte

問題原因:html = response.read().decode('utf-8'),程式碼裡面這樣讀取網頁,但是目標小說網站的網頁編碼為gbk

解決辦法:html = response.read().decode('gbk') 改為gbk編碼即可

2、BeautifulSoup解析頁面後資訊丟失

問題分析:soup = BeautifulSoup(result,"lxml"),找資料和查證發現是因為使用“lxml”的原因。

解決辦法:soup = BeautifulSoup(html, 'html.parser') 改為html.parser

(看別人說html.parser效能比較差,因為接觸Python太淺暫時Mark,以後再做深入調查)