02 通用爬蟲和聚焦爬蟲
阿新 • • 發佈:2018-11-17
通用爬蟲 聚焦爬蟲 1.通用爬蟲:搜尋引擎用的爬蟲系統 1.目標:就是儘可能把網際網路上所有的網頁下載下來,放到本地伺服器裡形成備份 再對這些網頁做相關處理(提取關鍵字、去掉廣告),最後提供一個使用者檢索介面 2.抓取流程: a)首選選取一部分已有的URL,把這些URL放到待爬取佇列 b)從佇列裡取出url,然後解析DNS得到主機IP,然後去這個IP對應的伺服器裡下載HTML頁面,儲存到對應的搜尋引擎的本地伺服器裡 之後把這個爬過的url放到已爬取佇列 c)分析這些網頁內容,找出網頁裡其他的URL連結,繼續執行第二步,直到爬取條件結束 3.搜尋引擎如何獲取一個新網站的URL: 1.主動向搜尋引擎提交網站:https://ziyuan.baidu.com/site/index 2. 在其他網站設定網站的外鏈 3. 搜尋引擎會和DNS服務商進行合作,可以快速獲取新網站 4.通用爬蟲並不是萬物皆可爬,它也需要遵守規則: Robots協議:協議會指明通用爬蟲可以爬取網頁的許可權 Robots.txt 只是一個建議 並不是所有爬蟲都遵守,一般只有大型的搜尋引擎爬蟲才會遵守,咱們個人寫的爬蟲,就不用管了 5.通用爬蟲工作流程:爬取網頁 儲存資料 內容處理 提供檢索/排名服務 6.搜尋引擎排名: 1.PageRank值:根據網站的流量(點選量/瀏覽量/人氣)統計,流量越高,排名越靠前,網站也越值錢 2.競價排名:誰給錢多,誰排名就高. 7.通用爬蟲的缺點: 1.只能提供和文字相關的內容(HTML、Word、PDF)等等,但是不能提供多媒體(音樂、圖片、視訊)和二進位制檔案(程式、指令碼) 2.提供的結果千篇一律,不能根據不同背景領域的人提供不同的搜尋結果 3.不能理解人類語義上的檢索 為了解決這個問題,聚焦爬蟲出現了 2.聚焦爬蟲:爬蟲程式設計師寫的針對某種內容爬蟲 面相主題爬蟲, 面相需求爬蟲,會針對某種特定的內容去爬取資訊,而且會保證內容和需求儘量相關 DNS:就是把域名解析成IP的一種技術、