1. 程式人生 > >Learning Scrapy 筆記

Learning Scrapy 筆記

1. 命令列在專案根目錄,根據crawl模版建立名為test的spider,web指spider可爬取的域名url,
   scrapy提供了諸多模版
    scrapy genspider –t crawl test web

2. scrapy抓取中文結果預設是unicode,無法顯示中文
    在setting設定 FEED_EXPORT_ENCODING = 'utf-8'

3. 併發下載數量限制,預設為8個
    CONCURRENT_REQUESTS_PER_DOMAIN = 1

4. 請求間的延遲
    DOWNLOAD_DELAY = 5

5. 請求不去重
    scrapy.Request()增加引數 dont_filter = True

6. ValueError: Missing scheme in request url
    scrapy.Request(response.urljoin(link))

7. scrapy shell 報錯403 shell里加個UA頭
    scrapy shell -s USER_AGENT='Mozilla/5.0' url_link

8. 程式碼沒問題,取不到資料,無報錯,一般是xpath有問題,可使用scrapy shell除錯xpath
    xpath在chrome能取到資料,在scrapy不一定能取到

9. 爬取到指定數量的item後關閉爬蟲,scrapy也提供了定時關閉方法
    CLOSESPIDER_ITEMCOUNT = 10

10. 資料消除空格和'\n'
    extract()獲取到列表後使用[0]切片,使用strip()方法 .extract()[0].strip()
    .replace(old_str, new_str)    替換字串
    .split(' / ')    刪除指定引數,返回切割後的字串列表