1. 程式人生 > >搜尋引擎中的爬蟲和倒排索引技術

搜尋引擎中的爬蟲和倒排索引技術

三、抓取策略

    在爬蟲系統中,待抓取URL佇列是很重要的一部分。待抓取URL佇列中的URL以什麼樣的順序排列也是一個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些URL排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略:

    1.深度優先遍歷策略

深度優先遍歷策略是指網路爬蟲會從起始頁開始,一個連結一個連結跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤連結。我們以下面的圖為例:

    遍歷的路徑:A-F-G  E-H-I B C D

    2.寬度優先遍歷策略

    寬度優先遍歷策略的基本思路是,將新下載網頁中發現的連結直接插入待抓取URL佇列的末尾。也就是指網路爬蟲會先抓取起始網頁中連結的所有網頁,然後再選擇其中的一個連結網頁,繼續抓取在此網頁中連結的所有網頁。還是以上面的圖為例:

    遍歷路徑:A-B-C-D-E-F G H I

好吧爬蟲就到這裡了,我也是看得一愣一愣的。下面是倒排索引了。