1. 程式人生 > >爬蟲部分學習總結

爬蟲部分學習總結

1.接觸過幾種爬蟲模組:

  urllib, requests

2.robots協議是什麼:

   requests模組沒有使用硬性的語法對該協議進行生效。

   scrapy硬性語法對該協議進行了生效

 

3.如何處理驗證碼:

    雲打碼平臺  打碼兔

4.掌握幾種資料解析的方式:

    正則、xpath、 bs4

5.如何爬取動態載入的頁面資料:

  (1)selenium

  (2)ajax,抓包工具抓取非同步發起的請求(url)

6.接觸過哪些反爬機制?如何處理?

  robots協議   UA   封IP 

  驗證碼 ,動態資料爬取, 資料加密,  token

7.在scrapy中接觸過幾種爬蟲的類:

  Spider, CrawlSpider, RedisCrawlSpider, RedisSpider

8.如何實現分散式流程:都依託scrapy-redis庫

  RedisCrawlSpider, RedisSpider