1. 程式人生 > >這就是搜尋引擎-筆試6-連結分析

這就是搜尋引擎-筆試6-連結分析

搜尋引擎在查詢時主要考慮兩方面因素:網頁和查詢的相關性、網頁的重要性連結分析解決網頁重要性的問題網頁中最重要的三個要素,出鏈(Out Link),入鏈(In Links),錨文字連結分析演算法1、隨機遊走模型:對直接跳轉和遠端跳轉兩種使用者瀏覽行為進行抽象的概念模型,使用者從當前網頁到達某網頁的概率2、子集傳播模型:把網頁劃分為若干子集,給予子集內網頁初始權值,根據連結關係,按照一定方式將權值傳遞到其他網頁不同子集傳播模型在如下方面存在差異:1)如何定義特殊子集合2)在確定了特殊子集合所具有的性質後,如果對子集內的網頁賦初始3)從特殊子集合將其分值傳播到其他網頁時,採取何種傳播方式PageRank演算法
除了考慮到入鏈數量的影響,還參考了網頁質量因素數量假設:在Web圖模型中,如果一個頁面節點接收到的其他網頁指向的入鏈數量越多,那麼這個頁面越重要質量假設:質量高的頁面會通過連結向其他頁面傳遞更多的權重演算法開始賦予每個網頁相同的重要性得分,通過迭代遞迴計算來更新每個頁面節點的PageRank得分,直到穩定為止遠端跳轉:解決連結陷阱的通用方式,在網頁向外傳遞分值時,不限於向出鏈所指網頁傳遞,也可以以一定的概率向任意其他網頁跳轉(虛擬邊,權值通過虛擬邊向外傳遞)HITS(Hypertext Induced Topic Selection)演算法Authority頁面:某個領域或者某個話題相關的高質量網頁Hub頁面
:指向很多Authority頁面基本假設1:一個好的Authority頁面會被很多好的Hub頁面指向基本假設2:一個好的Hub頁面會向向很好的Authority頁面演算法步驟:1、將查詢提交給某個現有的搜尋引擎,或檢索系統,提取排名靠前的結果(根集)2、在根集的基礎上,對其擴充(凡是與根集內網頁有直接連結指向關係的網頁都被擴充進來)3、在根集+擴充網頁,尋找好的Hub頁面與好的Authority頁面4、初始情況下,在沒有更多可利用資訊前,把所有頁面兩個權值都設定為15、以相互增強的關係等原則進行多輪迭代計算,每輪迭代計算更新每個頁面的兩個權值,直到權值穩定為止HITS演算法不僅在搜尋引擎領域應用,在自然語言處理,社交分析也有較好的效果HITS演算法的不足:計算效率較低、主題漂移,易被作弊者操縱結果,結果不穩定(新增刪除個別網頁或者改變少數連結關係,對排名影響會很大)HITS演算法與PageRank演算法比較
1、HITS與使用者輸入查詢相關,PageRank與查詢無關2、HITS計算效率低,PageRank離線計算,線上直接使用計算結果,計算效率高3、HITS為區域性計算,適合在客戶端,PageRank為全域性計算,適合步驟在伺服器端4、HITS適合處理具體使用者查詢,PageRank處理適合處理寬泛的使用者查詢5、HITS演算法在計算時,為每個頁面計算兩個分值,PageRank只需計算一個分值,在搜尋引擎領域,更重要Authority權值,其他應用領域Hub分值也很重要6、從反作弊角度說,PageRank從機制上優於HITS7、PageRank比HITS計算過程更穩定,原因是PageRank計算時的遠端跳轉SALSA演算法很多實驗資料表明,SALSA是目前最好的連結分析演算法之一計算流程分兩個階段:1、確定計算物件集合,與HITS類似1)擴充套件網頁集合,在收到使用者查詢後,利用現有搜尋引擎或檢索系統獲取根集,並擴充套件2)轉換為無向二分圖,一個子集合Hub集合,Authority集合2、連結關係傳播過程,在這一階段採納了隨機遊走模型在權值傳播過程中,權值是被所有連結平均分配的HITS模型關注的是Hub和Authority之間的節點相互增強關係SALSA實際上關注的是Hub-Hub及Authority-Authority之間的節點關係Authority集合內從某個節點i轉移到另一個節點j的概率,i與j之間概率是不同的,非對稱在二分圖中,對於Authority集合內的某個節點來說,一定可以通過Hub子集合的節點中轉後再次返回本身建立好Authority節點關係圖後,即可利用隨機遊走模型來計算每個節點的Authority權值SALSA將搜尋結合排序問題進一步轉換為求Authority節點矩陣的主秩問題,無需迭代,計算速度快決定Authority權值的4個因子1)Authority子集合中包含的節點總數2)網頁i所在連通圖中的節點個數3)網頁i所在連通圖中包含的入鏈總數4)網頁i的入鏈個數SALSA演算法的特點:1、SALSA演算法無需像HITS演算法一樣迭代計算,計算速度快2、解決了HITS主題漂移的問題,搜尋質量優於HITS主題敏感PageRank該演算法被Google使用在個性化搜尋服務中,非常適合作為個性化搜尋的技術方案使用者會對某些領域感興趣,同時當瀏覽某個頁面時,這個頁面也是與某個主題相關,跳轉時,更傾向於點選和當前頁面主題類似的連結主題敏感PageRank是將使用者興趣,頁面主題及連結所指向網頁與當前網頁主題的相似程度綜合考慮而建立模型該演算法引入16種主題型別,對於某個網頁來說,對應某個主題型別都有相應的PageRank分值主題敏感的PageRank與主題相關,在接收到使用者查詢後,主題敏感PageRank還需要利用分類器,計算該查詢隸屬於事先定義好的16個主題的相似度,並在排序時利用此相似度資訊計算流程:1、離線的分類主題PageRank數值計算,計算網頁對於16個分類的相似度     將網頁劃分為兩個集合,一個ODP對應分類主題對應的所有網頁S,剩下的網頁為另一個集合T     通過連結關係,從S向T傳遞權重,即計算網頁所屬類別的概率2、線上利用算好的PageRank分值,來評估網頁和使用者查詢的相似度     通過計算查詢詞所屬類別的概率*網頁所屬類別的概率,得出兩者相關性的分值,進行排序HillTop演算法1、從海量的網際網路網頁中通過一定的規則選出專家頁面子集合,並單獨為其建立索引2、接收使用者發出的查詢請求時,根據使用者查詢的主題,從專家頁面子集合中找出部分相關性最強的專家頁面,對每個專家頁面計算相關性得分3、根據目標頁面(從索引系統中中取到的頁面)和這些專家頁面的連結關係 對目標頁面進行排序4、整合相關專家頁面和得分較高的目標頁面作為搜尋結果,返回給使用者從屬組織頁面:主機IP地址的前3個網段相同,網站域名中的主域名相同專家頁面1、與某個主題相關的高質量頁面2、這些頁面的連結所指向的頁面相互之間是非從屬組織頁面3、這些被指向的頁面大多數是與專家頁面主題相近HillTop可以與某個排序演算法相結合,不適合作為一個獨立的網頁排序演算法來使用,因為當無法得到一個足夠大的專家頁面時,會返回空結果。步驟1:專家頁面搜尋從1億4千萬網頁中,篩選出250萬作為專家頁面,專家頁面特徵:1、頁面中至少包含K個出鏈,K可以人為指定2、K個出鏈指向的所有頁面相互之間的關係,都符合非從屬組織頁面對專家頁面單獨建索引,且只對關鍵欄位(Key Phrase)進行索引,關鍵欄位包含3類資訊:網頁標題,H1標籤內文字和URL錨文字關鍵欄位有影響範圍(可以支配Qualify的連結),依次為,標題->H1標籤->URL錨文字在計算網頁排序時,對查詢欄位在不同的關鍵欄位中,會使用不同的權值系統接收到使用者查詢Q,將對專家頁面進行打分,主要考慮以下3類資訊:1、關鍵欄位包含了多少詞2、關鍵片段本身的型別,即關鍵欄位的型別3、使用者查詢和關鍵詞的失配率,即關鍵欄位中不屬於查詢的單詞個數佔關鍵片段總單詞個數的比率步驟2:目標頁面排序Hilltop演算法包含的基本假設:一個目標頁面如果是滿足使用者查詢的高質量搜尋結果,其充分必要條件是該目標頁面有高質量專家頁面連結指向為保證上述假設的成立,Hilltop演算法在這個階段需要對專家頁面的出鏈仔細進行甄別,以保證查詢時,選出那些和查詢密切相關的目標頁面。在進行傳遞分值之前,首先需要對連結關係進行整理,能夠獲得專家頁面分值的目標頁面需要滿足以下兩點要求:條件1、至少需要兩個專家頁面有連結指向目標頁面,且兩個專家頁面不能是從屬組織頁面能夠獲得傳遞分值的目標頁面一定有多個專家頁面連結指向,目標頁面所獲得的總傳播分值是每個有連結指向的專家頁面所傳遞的分值之和條件2、專家頁面和所指向的目標頁面不能是從屬組織頁面目標頁面權值計算步驟:1、找到專家頁面中那些能夠支配頁面的關鍵片段集合S2、統計S中包含使用者查詢詞的關鍵片段個數T,T越大權值越大3、專家頁面給目標頁面傳遞分值:E*T,E為專家頁面本身在第一階段計算得到的相關得分,T為b步驟計算分值對於包含多個查詢詞的使用者請求,則每個查詢詞單獨計算,將多個查詢詞的傳遞分值累加Hilltop演算法存在與HITS演算法類似的計算效率問題,隨著專家頁面集合的增大其他改進演算法1、智慧遊走模型(Intelligent Surfer Model)判斷網頁包含的連結所指向的網頁內容和使用者查詢的相關性,以此來改善連結分析效果2、偏置遊走模型(Biased Sufer Model)智慧遊走模型考慮的是網頁內容和使用者查詢的相關性,而偏遊走模型考慮的是連結指向的網頁內容和當前瀏覽網頁內容之間的相似性3、PHITS演算法(Probability Analogy of HITS)PHITS是對HITS演算法的直接改進。PHITS演算法認為不同連結其傳遞權值的能力應該是不同的,PHITS需要計算兩個頁面S和T之間連結的連線強度連結的強度依據頁面S和T之間相似度確定4、BFS演算法(Backward Forward Step)對SALSA演算法的擴充套件,對HITS演算法的限制解除了SALSA演算法只允許直接相鄰網頁才能有影響的限制,只要網頁S和T可通達,即可對網頁T施加影響,如果網頁S距離網頁T距離越遠,那麼網頁S的影響就隨著距離增大而呈現衰減 posted on 2013-11-12 14:06 胡滿超 閱讀(329) 評論(0)  編輯 收藏 引用 所屬分類: 搜尋引擎