這就是搜尋引擎-筆試2
阿新 • • 發佈:2018-12-27
二、網路抓蟲
網頁頁面劃分為5個部分:1、已下載2、已過期3、待下載4、可知網頁集合,未下載,但可索引5、不可知網頁集合,暗網網頁爬蟲分三種類型:1、批量型:有明確的抓取範圍和目標,當達到這個目標後停止抓取2、增量型:不斷抓取,抓取到以後定期更新3、垂直型:抓取特定行業網頁優秀爬蟲的特性:高效能、可擴充套件(良好的併發性)、健壯性、友好性(遵守Robot協議)評價爬蟲質量的標準:覆蓋率,時新性,重要性抓取策略:優先選擇重要網頁進行抓取1、寬度優先遍歷策略,雖然機械,但是效果好,隱含了一些網頁優秀級的假設2、非完全PageRank策略,對已下載網頁集合,加上待抓取URL,形成網頁集合,進行PageRank計算,將待抓取按得分進行排序3、OCIP策略,線上頁面重要性計算,待下載頁面都分配相同的cash,下載後把頁面擁有的現金平分給包含的連結,待抓取URL則根據手頭現金排序,優先下載最充裕網頁。計算速度快,適合實時計算,效果略優於寬度優先4、大站優先策略,哪個網站等等下載的頁面最多,則優先下載這些連結,效果略優於寬度優先 網頁更新策略1、歷史參考策略,過去頻繁更新的網頁,將來也會頻繁更新,利用泊松過程抓取策略應該忽略掉廣告或導航等非重要區域的頻繁變化,集中在主題內容的變化探測和建模2、使用者體驗策略,對搜尋結果排名靠前,更新以後對搜尋質量(排名)的影響較大的頁面進行更新3、聚類抽樣策略,先對網頁進行聚類,對同一類網頁採用相同的更新頻率聚類特徵:靜態特徵,頁面的內容,圖片數量,頁面大小,連結深度,PageRank值動態特徵,隨著時間的變化 ,靜態特徵的變化情況聚類抽樣策略效果好於前述兩種,但是對億計網頁進行聚類,難度較大暗網抓取將暗網資料從資料庫中挖掘出來,百度的“阿拉丁”計劃就是解決此問題查詢組合:Google提出富含資訊查詢模板技術,使用 富含資訊查詢模板進行查詢,獲取有效的網頁結果富含資訊查詢模板:對於某固定的查詢模板來說,如果給模板內每個屬性都賦值,形成不同的查詢組合,其返回內容差異較大,則這個查詢模板為富含資訊查詢模板分散式爬蟲主從分散式:URL伺服器容易成為整個系統的瓶頸對等分散式:沒有URL伺服器存在,每臺抓取伺服器的分工成為問題,對網址的主域名進行雜湊計算,之後對m伺服器數量取模,把計算後的模和抓取伺服器號匹配一致性雜湊演算法:將網站主域名進行雜湊,對映到0~2^32之間某個數值,抓取伺服器負責這個環狀序列的一個片段的抓取,抓取內容由上一個伺服器進行迴圈轉發
posted on 2013-09-13 11:10 胡滿超 閱讀(279) 評論(0) 編輯 收藏 引用 所屬分類: 搜尋引擎
網頁頁面劃分為5個部分:1、已下載2、已過期3、待下載4、可知網頁集合,未下載,但可索引5、不可知網頁集合,暗網網頁爬蟲分三種類型:1、批量型:有明確的抓取範圍和目標,當達到這個目標後停止抓取2、增量型:不斷抓取,抓取到以後定期更新3、垂直型:抓取特定行業網頁優秀爬蟲的特性:高效能、可擴充套件(良好的併發性)、健壯性、友好性(遵守Robot協議)評價爬蟲質量的標準:覆蓋率,時新性,重要性抓取策略:優先選擇重要網頁進行抓取1、寬度優先遍歷策略,雖然機械,但是效果好,隱含了一些網頁優秀級的假設2、非完全PageRank策略,對已下載網頁集合,加上待抓取URL,形成網頁集合,進行PageRank計算,將待抓取按得分進行排序3、OCIP策略,線上頁面重要性計算,待下載頁面都分配相同的cash,下載後把頁面擁有的現金平分給包含的連結,待抓取URL則根據手頭現金排序,優先下載最充裕網頁。計算速度快,適合實時計算,效果略優於寬度優先4、大站優先策略,哪個網站等等下載的頁面最多,則優先下載這些連結,效果略優於寬度優先