1. 程式人生 > >02 通用爬蟲和聚焦爬蟲

02 通用爬蟲和聚焦爬蟲

通用爬蟲 聚焦爬蟲
1.通用爬蟲:搜尋引擎用的爬蟲系統
    1.目標:就是儘可能把網際網路上所有的網頁下載下來,放到本地伺服器裡形成備份
     再對這些網頁做相關處理(提取關鍵字、去掉廣告),最後提供一個使用者檢索介面

    2.抓取流程:
    a)首選選取一部分已有的URL,把這些URL放到待爬取佇列
    b)從佇列裡取出url,然後解析DNS得到主機IP,然後去這個IP對應的伺服器裡下載HTML頁面,儲存到對應的搜尋引擎的本地伺服器裡
     之後把這個爬過的url放到已爬取佇列
    c)分析這些網頁內容,找出網頁裡其他的URL連結,繼續執行第二步,直到爬取條件結束
    3.搜尋引擎如何獲取一個新網站的URL:
        1.主動向搜尋引擎提交網站:https://ziyuan.baidu.com/site/index
        2. 在其他網站設定網站的外鏈
        3. 搜尋引擎會和DNS服務商進行合作,可以快速獲取新網站
    4.通用爬蟲並不是萬物皆可爬,它也需要遵守規則:
        Robots協議:協議會指明通用爬蟲可以爬取網頁的許可權
        Robots.txt 只是一個建議 並不是所有爬蟲都遵守,一般只有大型的搜尋引擎爬蟲才會遵守,咱們個人寫的爬蟲,就不用管了
    5.通用爬蟲工作流程:爬取網頁  儲存資料 內容處理 提供檢索/排名服務
    6.搜尋引擎排名:
        1.PageRank值:根據網站的流量(點選量/瀏覽量/人氣)統計,流量越高,排名越靠前,網站也越值錢
        2.競價排名:誰給錢多,誰排名就高.
    7.通用爬蟲的缺點:
        1.只能提供和文字相關的內容(HTML、Word、PDF)等等,但是不能提供多媒體(音樂、圖片、視訊)和二進位制檔案(程式、指令碼)
        2.提供的結果千篇一律,不能根據不同背景領域的人提供不同的搜尋結果
        3.不能理解人類語義上的檢索

為了解決這個問題,聚焦爬蟲出現了
2.聚焦爬蟲:爬蟲程式設計師寫的針對某種內容爬蟲
面相主題爬蟲, 面相需求爬蟲,會針對某種特定的內容去爬取資訊,而且會保證內容和需求儘量相關


DNS:就是把域名解析成IP的一種技術、