1. 程式人生 > >python爬蟲定時增量爬取資料

python爬蟲定時增量爬取資料

解決要點:
1.定時更新
2.增量爬取
以上兩個技術關鍵點均可基於scrapy開源爬蟲框架擴充解決
scrapy框架
解決
1.定時爬取
在linux下使用crontab來執行scrapy定時爬取的需求。
Crontab命令是Unix系統和類Unix系統中,用來設定週期性執行的指令。該命令從標準輸入裝置讀取指令,並將其存放在“Crontab”檔案中,以供後期讀取和執行。Crontab所存的指令,被守護程序啟用。crond常常在後臺執行,以一分鐘為間隔檢查是否有預定的作業需要執行,這類作業一般成為cron jobs。
crontab格式
2.增量爬取
利用已爬取資料的URL或者頁面內容來建立資料指紋,作為key存入Redis資料庫中的集合,每次爬蟲要處理URL或者頁面時會先去Redis資料庫裡檢查一下是否已經存在,從而決定爬取內容。
Redis優勢:

  1. Redis資料庫基於key-value形式的儲存,檢索速度非常快;
  2. Redis將記憶體中的內容持久化到磁碟,保證了爬蟲的可靠性。
    部分流程圖