1. 程式人生 > >10.聚焦爬蟲和通用爬蟲的區別

10.聚焦爬蟲和通用爬蟲的區別

1.通用爬蟲:搜尋引擎用的爬蟲系統。搜尋引擎和供應商提供的爬蟲。

 通用爬蟲要遵循規則:Robots協議
 
 通用爬蟲工作流程:
  爬取網頁》儲存資料》內容處理》提供檢索
 
 通用爬蟲缺點:
  只能提供和文字相關的內容如html、world、pdf等,不能提供多媒體檔案如音樂、圖片、視訊和二進位制檔案(指令碼、程式)
  提供的結果千篇一律,針對不同領域提供不同內容
  不能提供人類語義上的檢索
 
 通用爬蟲侷限性:
  1.通用搜索引擎返回網頁的資料內容,大概90%都無用。
  2.中文搜尋引擎自然語言檢索理解困難。
  3.資訊佔有量和覆蓋率存在侷限。
  4.搜尋引擎主要是以關鍵字搜尋為主,對於圖片、資料庫、視訊、音訊等多媒體的內容用通用搜索引擎無效。
  5.搜尋引擎的社群化和個性化不好,未考慮實際因素如人的地域、性別、年齡等差別。
  6.搜尋引擎爬取動態網頁效果不好
2.聚焦爬蟲:針對於某一需求編寫的爬蟲程式。
 
聚焦爬蟲可分為三類:
  
 1.積累式爬蟲:從開始到結束,不斷爬取,過程會進行重複操作。

 2.增量爬蟲:已下載網頁採取增量式跟新,爬取更新變化的資料。
 
 3.深度爬蟲:指那些不能通過靜態連結獲取的、隱藏在搜尋表單後的,只有使用者提交一些關鍵詞才能獲取的web介面。