Learning Scrapy 筆記
阿新 • • 發佈:2018-12-22
1. 命令列在專案根目錄,根據crawl模版建立名為test的spider,web指spider可爬取的域名url, scrapy提供了諸多模版 scrapy genspider –t crawl test web 2. scrapy抓取中文結果預設是unicode,無法顯示中文 在setting設定 FEED_EXPORT_ENCODING = 'utf-8' 3. 併發下載數量限制,預設為8個 CONCURRENT_REQUESTS_PER_DOMAIN = 1 4. 請求間的延遲 DOWNLOAD_DELAY = 5 5. 請求不去重 scrapy.Request()增加引數 dont_filter = True 6. ValueError: Missing scheme in request url scrapy.Request(response.urljoin(link)) 7. scrapy shell 報錯403 shell里加個UA頭 scrapy shell -s USER_AGENT='Mozilla/5.0' url_link 8. 程式碼沒問題,取不到資料,無報錯,一般是xpath有問題,可使用scrapy shell除錯xpath xpath在chrome能取到資料,在scrapy不一定能取到 9. 爬取到指定數量的item後關閉爬蟲,scrapy也提供了定時關閉方法 CLOSESPIDER_ITEMCOUNT = 10 10. 資料消除空格和'\n' extract()獲取到列表後使用[0]切片,使用strip()方法 .extract()[0].strip() .replace(old_str, new_str) 替換字串 .split(' / ') 刪除指定引數,返回切割後的字串列表