1. 程式人生 > >HITS

HITS

歸一化 內部 算法比較 結果 基礎 auth 矩陣 數量 萬維網

HITS

1 概述

HITS(hypertext induced topic search)超鏈接歸納主題搜索是由kleinbers在90年代提出的基於鏈接分析的網頁排名算法。Hits算法是利用HubAuthority的搜索方法,即中心權威的思想。

Hits算法的基本思想:

  1. 好的中心網頁擁有很多的鏈出鏈接,這些鏈接都指向權威網頁。
  2. 好的權威網頁擁有很多的鏈入鏈接,這些鏈接都來自中心網頁。

即:一個優秀的中心頁必然會指向很多優秀的權威頁,一個優秀的權威頁必然會被很多優秀的中心頁指向。

2 網頁收集

在算法描述前,先描述HITS算法是如何收集待評級的網頁的。HITS將根據如下描述來搜索頁面集合:

  1. 它將搜搜字段q送至搜索引擎系統,然後收集t個排名最高的網頁,這些網頁都是與查詢字段q高度相關的。該集合稱為根集W。
  2. 然後它通過將指向W集合內部的網頁或者W集內部網頁指向的外部網頁加入W集的方式來擴充W。這就得到了一個更大的集合,我們稱為集合S,S被稱為基本集。然而,這個集合可能相當的大,算需要通過相紙每個W集內部的網頁,僅允許它們最多將K個指向自己的網頁加入S來限制S集的大小。

接著HITS對S集內部的每張網頁進行處理,對每張S集內部的網頁指定一個權威分值和中心分值。

3 HITS算法

HITS算法的求解過程如下:

  1. 收集根集頁面
  2. 將所有根集頁面的A(Authority Score)和H(hub Score)賦予初值
  3. 根據公式計算新一輪的H和A的值
  4. 規範化結果
  5. 重復(3)(4),直到結果收斂。

具體操作:

????假設待考察的網頁數目為n。我們用G=(V,E)來表示S的有向鏈接圖。V是網頁集,E是有向邊集。我們用L來表示圖的鄰接矩陣。

技術分享

每張網頁i的權威分值被表示為a(i),中心分值被表示為h(i)。兩種分值的相互增益關系為:

技術分享

將它們寫成矩陣形式,用a表示所有權威分值的列向量,技術分享

用h表示所有中心分值的列向量,技術分享

技術分享

計算權威分值和中心分值采用冪叠代方法。叠代公式如下:

技術分享

初始情況如下:

技術分享

在每次叠代後,數據要進行歸一化處理。滿足:

技術分享

技術分享時,停止叠代。

4 HITS算法和PageRank算法比較

????相同:

兩種算法那都利用了特征向量作為理論基礎和收斂基礎。這也是超鏈接環境下此類算法的共同特征。

????不同:

  1. 權值的傳播角度:HITS算法是將權威網頁的權值經過中心網頁的傳遞進行傳播;PageRank算法是將網頁的權值直接從權威網頁傳遞給權威網頁。
  2. 算法思想角度:HITS算法的權威值只是相對於某個檢索主題的權重;PageRank算法獨立於搜索主題
  3. 處理的數據量及用戶端的等待時間角度:HITS算法對所需排序的網頁數量需求少,一般為1000到5000,但由於需要從基於內容分析的搜索引擎中提取根集並擴充基本集,耗時長;PageRank算法處理的數據遠遠多於HITS。
  4. 從兩者處理的對象角度:HITS處理的對象是搜索引擎針對具體查詢主題所返回的記過,從幾百個頁面到幾千個頁面;PageRank處理的對象是一個搜索引擎上當前搜索下來的所有網頁,一般在幾千萬以上。
  5. 從具體應用的角度:THIS一般用於全文本所有引擎的客戶端,對於寬主題的所有相當有效,可以用於自動編撰萬維網分類目錄或者元搜索引擎的網頁排序;PageRank一般用於搜索引擎的服務端,直接用於標題查詢並獲得較好的結果。

參考文獻:

?

[1] [1]常慶,周明全,耿國華. 基於PageRank和HITS的Web搜索[J]. 計算機技術與發展,2008,(07):77-79.

[2] http://blog.csdn.net/androidlushangderen/article/details/43311943

?

?

HITS