Pagerank演算法學習

阿新 • • 發佈：2018-11-22

如何度量一個網頁本身的重要性?

某網頁被指向的次數越多，重要性越高

越是重要的網頁，所連結的網頁的重要性也就越高

如圖所示，鏈向網頁E的連結遠遠大於鏈向網頁C的連結，但是網頁C的重要性卻遠高於網頁E，這是因為網頁C被網頁B所連結，而網頁B具有很高的重要性。

Pagerank演算法的相關概念

PR值：用來評價網頁的重要性，PR值越大越重要，其級別從0到10級。一般PR值達到4，就是一個很不錯的網站。
阻尼係數：阻尼係數d定義為使用者不斷隨機點選連結的概率，所以，它取決於點選的次數，被設定為0-1之間。d的值越高，繼續點選連結的概率就越大。因此，使用者停止點選並隨機衝浪至另一頁面的概率在式子中用常數(1-d)表示。無論入站連結如何，隨機衝浪至一個頁面的概率總是(1-d)。(1-d)本身也就是頁面本身所具有的Pagerank 值。

Pagerank核心思想

PageRank通過網路浩瀚的超連結關係來確定一個頁面的等級。Google把從A頁面到B頁面的連結解釋為A頁面給B頁面投票，Google根據投票來源（甚至來源的來源，即連結到A頁面的頁面）和投票目標的等級來決定新的等級。這樣，PageRank會根據網頁B所收到的投票數量來評估該網頁的重要性。此外，PageRank還會評估每個投票網頁的重要性，因為某些重要網頁的投票被認為具有較高的價值，這樣，它所連結的網頁就能獲得較高的價值。

PR值計算

這裡寫圖片描述

N：網路中網頁的總數
d：阻尼係數，一般取值為0.85
PR(Xi):網頁Xi的PR值

C(Xi): 網頁Xi鏈出的網頁數
PR(Xi)/C(Xi): 根據鏈出總數，平分了一個頁面的PR值

從計算公式中可以看出，PR值的計算取決於以下因素：

鏈入網頁數
鏈入網頁的質量
鏈入網頁的鏈出網頁數

根據上面的公式，可以計算出每個網頁的PR值，在不斷迭代，趨於平穩時，即得到最終的PR值。所以只要證明在不斷的迭代過程中，PR值能夠趨於平穩即可。

演算法證明

這裡寫圖片描述
用鄰接矩陣表示圖中關係：

然後將每一行除以該行非零數字之和（鏈出網頁的數目）得到網頁連結概率矩陣：

對其轉置得到概率轉移矩陣：

設概率轉移矩陣為P，則P[i][j]表示從網頁j跳轉到網頁i的概率。
定義矩陣A：
這裡寫圖片描述

公式解釋：

P為概率轉移矩陣
e為n維的全一行

所以，在迭代時網頁的PR值計算如下，其中Rn表示第n次迭代時各網頁組成的列向量
這裡寫圖片描述
於是PR值的計算就變為了一個馬爾科夫過程，所以只要證明馬爾科夫過程收斂即可。
若一個馬爾可夫過程收斂，則概率轉移矩陣需要滿足以下條件：

A為隨機矩陣。

A是不可約的。

A是非週期的

隨機矩陣又叫概率矩陣或Markov 矩陣，滿足以下條件：

顯然我們的A矩陣所有元素都大於等於0，並且每一列的元素和都為1

不可約矩陣：方針A是不可約的當且僅當與A對應的有向圖是強聯通的。有向圖G=(V,E)是強聯通的當且僅當對每一對節點對u,v∈V，存在從u到v的路徑。因為我們在之前設定使用者在瀏覽頁面的時候有確定概率通過輸入網址的方式訪問一個隨機網頁，所以A矩陣同樣滿足不可約的要求
A是非週期的：所謂週期性，體現在Markov鏈的週期性上。即若A是週期性的，那麼這個Markov鏈的狀態就是週期性變化的。因為A是素矩陣（素矩陣指自身的某個次冪為正矩陣的矩陣），所以A是非週期的。

所以，馬爾科夫過程收斂，即PageRank演算法經過迭代後是收斂的。
最終，求解PR值的公式如下：
這裡寫圖片描述
其中，X是每個網頁初始PR值組成的列向量。

使用冪法求PageRank值

冪法計算過程如下：
X 設任意一個初始向量, 即設定初始每個網頁的 PageRank值均。一般為1.

R = AX; 
while (1 )
{
    if ( | X - R | <  e )
     { //如果最後兩次的結果近似或者相同，返回R
    return R;
    }
    else
    {
    X =R;
    R = AX;
    }
}

小結

優點：

是一個與查詢無關的靜態演算法，所有網頁的PageRank值通過離線計算獲得；有效減少線上查詢時的計算量，極大降低了查詢響應時間

缺點：

一些權威網頁往往是相互不連結的，比如新浪、搜狐、網易以及騰訊這些大的門戶之間，基本是不相互連結的，學術領域也是這樣。
人們的查詢具有主題特徵，PageRank忽略了主題相關性，導致結果的相關性和主題性降低
舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多上游連結，除非它是某個站點的子站點。

Pagerank演算法學習

如何度量一個網頁本身的重要性? 某網頁被指向的次數越多，重要性越高越是重要的網頁，所連結的網頁的重要性也就越高如圖所示，鏈向網頁E的連結遠遠大於鏈向網頁C的連結，但是網頁C的重要性卻遠高於網頁E，這是因為網頁C被網頁B所連結，而網頁B具有很高的重要

機器學習之十大經典演算法（八） PageRank演算法

PageRank演算法（一） PageRank演算法簡介： Google的創始人之一LarryPage於1998年提出了PageRank，並應用在Google搜尋引擎的檢索結果排序上，該技術也是Google早期的核心技術之一。 L

【機器學習】【PageRank演算法-1】PageRank演算法原理介紹

與他演算法一樣，雖然PageRank演算法滿天有，但是自己寫出來能夠記憶深刻和靈活使用，還是要寫一下PageRank演算法。1.PageRank演算法簡介1.1開門見山PageRank演算法以前就是Google的屠龍刀，倚天劍，降龍十八掌。Google顯示符合使用者搜尋的網頁

機器學習（十九）——PageRank演算法, KNN, loss function詳解

PageRank演算法概述在PageRank提出之前，已經有研究者提出利用網頁的入鏈數量來進行連結分析計算，這種入鏈方法假設一個網頁的入鏈越多，則該網頁越重要。早期的很多搜尋引擎也採納了入鏈數量作為連結分析方法，對於搜尋引擎效果提升也有較明顯

RocketMQ Consumer 負載均衡演算法學習 -- AllocateMessageQueueAveragelyByCircle

首先， RocketMQ Consumer 的負載均衡指的是把Topic 下的所有MessageQueue 分配到不同的 Consumer 中，所以Message Queue , Consumer 的數量，某個Consumer 的位置會影響到負載均衡。這邊介紹下環形平均分配的演算法：

[學習筆記] Berlekamp-Massey演算法 - 學習筆記

重新實現了一個看上去就像是對的的東西。推薦：傳送門講的很清楚了，不多贅述。 #include<bits/stdc++.h> #define gc getchar() #define rep(i,a,b) for(int i=a;i<=b;i++) #define R

基本演算法學習（一）—— 排序

排序一、氣泡排序演算法思想: 在每一次對比排序中將大的數放在後面，整個排下來後，就變成有序的數列了演算法實現： 1.（範圍為整個陣列），從前向後兩兩比較，如果前面比後面大就交換位置。第一遍後就將大的放在了最後 2.（縮小範圍），從頭再次重

演算法學習——支援向量機SVM

SVM現在的公式推導很多，都是現成的，而且寫的也很好，我會提供相關資源，這篇博文主要從思想理解的方面做一個簡單介紹。 1、SVM 是如何工作的？支援向量機的基礎概念可以通過一個簡單的例子來解釋。讓我們想象兩個類別：紅色和藍色，我們的資料有兩個特徵：x 和 y。我們想要一個分類器，給定一

演算法學習——邏輯迴歸(Logistic Regression)

1.Logistic Regression 1.1什麼是迴歸？英文單詞Regression翻譯成中文“迴歸”，那什麼是迴歸呢？事實上，在Logistic迴歸出現以前，人們最先引入的是線性迴歸。瞭解二者之間的來龍去脈將幫助你更深刻地認識Logistic迴歸。迴歸一詞最早由英國科學家

演算法學習——線性迴歸

1.線性迴歸模型表示一元線性迴歸表示：多元線性迴歸表示：矩陣表示：，其中 &n

蟻群演算法學習

** 蟻群演算法的基本原理（簡單概括）： ** 剛開始螞蟻按照同等概率選擇各條路徑。螞蟻在經過的路徑下留下資訊素。短的路徑螞蟻會率先找到食物源，因此資訊素濃度偏大。由於資訊素的揮發，較長路徑上的資訊素逐漸消失特點：正反饋；不容易陷入區域

演算法學習——遞推之水手分椰子

演算法描述五個水手來到一個島上，採了一堆椰子後，因為疲勞都睡著了。一段時間後，第一個水手醒來，悄悄地將椰子等分成五份，多出一個椰子，便給了旁邊的猴子，然後自己藏起一份，再將剩下的椰子重新合在一起，繼續睡覺。不久，第二名水手醒來，同樣將椰子了等分成五份，恰好也多出一個，也給了猴子。然而自己也藏起一份，

演算法學習——回溯之伯努利裝錯信封問題

演算法描述某人給6個朋友每個人都寫了一封信，同時寫了這6個朋友地址的信封，有多少種投放信箋的方法，使得每封信與信封上的收信人都不相符？演算法思路 6封信可能出現的結果：所有的信都是在對應的信封中，也就是所有的信都放對了信封，這種情況只有一種部分信放錯了信封

演算法學習——遞推演算法之擺動數列

演算法描述已知遞推數列： a(1)=1 a(2i)=a(i)+1 a(2i+1)=a(i)+a(i+1) (i為正整數) 求該數列的第n項，以及前n項中的最大值為多少，其n為多少？演算法思路採用遞推的方法，使用一維陣列，從2開始遞推，

演算法學習——中國大學MOOC-陳越、何欽銘-資料結構-起步能力自測題——java程式碼實現

自測-1 列印沙漏（20 point(s)）本題要求你寫個程式把給定的符號列印成沙漏的形狀。例如給定17個“*”，要求按下列格式列印 ***** *** * *** ***** 所謂“沙漏形狀”，是指每行輸出奇數個符號；各行符號中心對齊；相鄰兩行符號數差2；符號數先從大

演算法學習——尋找字串中的最長迴文子串

文章轉載自公眾號《網際網路偵查》 /** * @author xiaoshi on 2018/9/24. * Happy Mid-Autumn Festival */ public class PlalindromeString { // 判斷一個字串是否迴文，演算法中用

演算法學習——最大子列和問題

參考視訊：中國大學mooc——浙江大學——資料結構——陳越、何欽銘問題描述：求取陣列中最大連續子序列和，例如給定陣列為A={1， 3， -2， 4， -5}，則最大連續子序列和為6，即1+3+（-2）+ 4 = 6。演算法一 int MaxSubseqSu

演算法學習——Map的四種遍歷方法詳解

參考文獻：Java中如何遍歷Map物件的4種方法 java中的所有map都實現了Map介面，以下方法適用於任何map實現（HashMap, TreeMap, LinkedHashMap, Hashtable, and so on）方法一在for-each迴圈中使用entr

演算法學習——卡特蘭數

聯賽前複習一點東西吧。。。計算公式：　　\[h_{n} = h_{0} \cdot h_{n - 1} + h_{1} \cdot h_{h - 2} + ... + h_{n - 1} \cdot h_{0}\] 　　\[h_{n} = h_{n - 1} \cdot (4n - 2) / (n +

演算法學習——貪心演算法之可拆揹包

演算法描述已知道n種物品和一個可容納c重量的揹包，第i種物品的重量為wi，價值為pi，裝包的時候可以把物品拆開（即可只裝每種物品的一部分），設計如何裝包，使裝包所得整體的價值最高？演算法思路首先，我們要知道，n種物品以及他們對應的價值，都是由使用者輸入的我們使用貪心演算法，每

Pagerank演算法學習

如何度量一個網頁本身的重要性?

Pagerank演算法的相關概念

Pagerank核心思想

PR值計算

演算法證明

使用冪法求PageRank值

小結

優點：

缺點：

相關推薦