搜尋引擎中的爬蟲和倒排索引技術

阿新 • • 發佈：2019-01-03

三、抓取策略

在爬蟲系統中，待抓取URL佇列是很重要的一部分。待抓取URL佇列中的URL以什麼樣的順序排列也是一個很重要的問題，因為這涉及到先抓取那個頁面，後抓取哪個頁面。而決定這些URL排列順序的方法，叫做抓取策略。下面重點介紹幾種常見的抓取策略：

1.深度優先遍歷策略

深度優先遍歷策略是指網路爬蟲會從起始頁開始，一個連結一個連結跟蹤下去，處理完這條線路之後再轉入下一個起始頁，繼續跟蹤連結。我們以下面的圖為例：

遍歷的路徑：A-F-G E-H-I B C D

2.寬度優先遍歷策略

寬度優先遍歷策略的基本思路是，將新下載網頁中發現的連結直接插入待抓取URL佇列的末尾。也就是指網路爬蟲會先抓取起始網頁中連結的所有網頁，然後再選擇其中的一個連結網頁，繼續抓取在此網頁中連結的所有網頁。還是以上面的圖為例：

遍歷路徑：A-B-C-D-E-F G H I

好吧爬蟲就到這裡了，我也是看得一愣一愣的。下面是倒排索引了。