1. 程式人生 > >聚焦網路爬蟲原理

聚焦網路爬蟲原理

  1. 對爬取目標的定義和描述。在聚焦網路爬蟲中,我們首先要依據爬取需求定義好該聚焦網路爬蟲爬取的目標,以及進行相關的描述
  2. 獲取初始的URL
  3. 根據初始的URL爬取網頁,並獲得新的URL
  4. 從新的URL中過濾掉與爬取目標無關的連結。因為聚焦網路爬蟲對網頁的抓取是有目的性,所以與目標無關的網頁將會被過濾掉。同時,也需要將已爬取的URL地址存放到一個列表中,用於去重和判斷爬取的程序
  5. 將過濾後的連結放到URL佇列中
  6. 從URL佇列中,根據搜尋演算法 ,確當URL的優先順序,並確定下一步要抓取的URL地址。在通用網路爬蟲中,下一步爬取那些URL,是不太重要的,但是在聚焦網路爬蟲中,由於其具有目的性,故而下一步爬取哪些URL地址相對來說是比較重要的。對於聚焦網路爬蟲來說,不同的爬取順序,可能導致爬蟲的執行效率不同,所以,我們需要依據搜尋策略來確定下一步需要爬取那些URL地址
  7. 從下一步要爬取的URL地址中,讀取新的URL,然後依據新的URL地址爬取網頁,並重覆上述爬取的過程
  8. 滿足系統中設定的停止條件時,或無法獲取新的URL地址時,停止爬行