1. 程式人生 > >----------【1-論文開題報告】----------

----------【1-論文開題報告】----------


開題報告:爬蟲監控造價網站並採集資訊價資料

課題的目的、意義以及和本課題有關的國內外現狀分析

  1.目的:
     本課題主要目的是設計爬蟲程式監控網站資訊資料,若網站資料更新則做郵件通知,再排程執行對應的爬蟲專案採集網站資料。
  
  2.意義:
     解決工作中人工手動對網站監控的任務,由於人工去對網站更新查詢比對即耗時又耗力而且還達不到很好的效果,若監控量小的話
  還好解決,但是一旦需要監控的網站數量大起來就很難管理,因此設定一個自動監控爬蟲的程式並能做到更新通知對於網站的監控
  就變得方便又高效,網站量大也不影響,無非針對網站多定義一個爬蟲規則。
   
   方法:
     根據不同的網站利用scrapy編寫對應的規則,對需要監控的資料進行擷取MD5加密,獲取網站名稱name,連結url,時間戳time,
  統一入庫的四個欄位,存入mysql作比對,並將歸納爬蟲專案,設定單執行緒定時呼叫需要監控爬蟲程式,網站資料更新則作通知,之
  後再排程爬蟲採集資料。
  
  3.現狀:
     大資料時代來臨,對資料的需求量日益增長,自動化的爬蟲程式能採集到大量有價值的資料滿足人們的需求,但相應的網站反爬與反反
  爬也是一直在鬥爭,常見的反爬頻繁驗證碼、ip限制、js加密等。
  目前來說反爬限制最頻繁的就是驗證碼這方面,而且驗證碼的方式有很多類,又簡單的滑動驗證(拖動碎片到正確的位置),輸入式驗證碼
  (識別圖片內容)、點選式圖文驗證(給出提示文字做出點選驗證)等,一般爬蟲遇到驗證碼都會去跳過驗證,因為其解決起來費時費力效
率還不高。ip限制也是網站常用的反爬措施,對使用者ip進行異常監控檢測,一旦請求異常就禁止訪問,解決ip限制就會使用到代理ip,有付費代理
  和免費的高匿代理。js加密就是最高階的反爬措施了,破解起來難度更大,需要分析其規則機制。

研究目標、研究內容和準備解決的問題:

1.目標:
    完成scrapy爬蟲對監控網站規則的編寫及管理,Gerapy分散式管理爬蟲專案,根據郵件更新提示排程相對應的爬蟲專案執行爬蟲程式採集資料,
實現程式的自動化處理定時監控功能。

2.內容:
    針對不同的網站反爬措施採取對應的解決措施,採集匹配頁面結構化及非結構化資料,實現頁面有效欄位資訊的入庫儲存,並對採集欄位進行擷取清洗,
規範一定的標準。

3.準備解決的問題:
    應對頁面反爬,需要登入請求網站則模擬登入請求資料,js載入就分析獲取指定url,ip限制則使用代理ip。
    規範造價網站表單資料抓去規則,規範字段標準。
    模擬請求引數實現翻頁,分析header請求獲取關鍵value值。
    配置scrapy中介軟體模組下載網站檔案及圖片。
    配置smtp郵件提醒功能。
    設定單執行緒排程執行爬蟲程式。

擬採取的方法、技術或設計(開發)工具:


  方法及技術:Python + Scrapy框架 、mysql、Thread(單執行緒)、Scrapyd、Gerapy、SMTP
  工具:Navicat、Pycharm(python3)、代理ip軟體