Google PageRank演算法解析

阿新 • • 發佈：2019-01-01

PageRank演算法是Google進行搜尋排名的重要依據。

該演算法早在十幾年前就谷歌廣泛應用在搜尋引擎上

本文將討論有關此演算法的一些細節

首先附上我對Networked Life - 20 Questions and Answers這本本書引言的翻譯內容，我認為這段用來引入話題再適合不過了

3.2

對於任何搜尋引擎，有兩個主要活動在持續不斷進行

1. 在網頁超連結中爬行以獲得網頁資訊

2. 將此資訊索引為簡明的陳述和索引排序

當你使用谷歌搜尋時，它會觸發一個排名程式，這個程式需要考慮以下兩個主要因素：

1. 每一個網頁上內容的有多麼相關，或叫相關性係數
2. 這個網頁有多重要，或者叫重要性係數

這兩個因素的綜合得分決定了排名。我們把重點關注重要性係數

排名，因為這在任何合理的熱門搜尋中，通常決定了前幾頁的排名，而這將巨大地影響人們如何獲得資訊的和線上電子商務如何保證資訊流。

————————————————————————————————————————————————————————————————————————————

正文

1、啟發式隨機遊走模型（Heuristics with a random surfer）

PageRank演算法是基於頁面超連線的。我們假設網路中一共有N個頁面。

迷途節點（Dangling Node）指的是沒有任何向外超連結的網頁節點

作為一個數學模型，我們需要有一個向量可以記錄沒有頁面的重要性係數，我們假設這個向量是pai（一個只有1列N行的向量）

這個向量雖然說無所謂數值大小，只要能排序出區別就行，但是我們還是習慣於將其標準化為和等於1，因為這樣相當於給所有頁面一個分數的總量1

當然，我們還需要一個向量記錄各個頁面中超連結的指向情況，H

很明顯H是一個N*N大小的向量，H（i，j）定義為，頁面i到頁面j有超連結，取值為1 / #out link（該頁面的超連結數量）；否自設為0

當分析這個矩陣的時候我們就可以看到，H的N行是第i個頁面的超連結情況，H的列是第j頁面被超連結情況

這個其實是在抽象一個不是非常完美的現實模型，就是我們假設使用者訪問每個頁面時點選該頁面的任意一個超連結的概率都是一樣的，

而這個概率值乘以當前頁面假設的重要性引數就是該頁面分配給其超連結頁面的分數

因此當頁面的連線不再變化時，此模型會收斂於，即每個頁面會有一個固定的重要性分數（根據其獲得的分數）

2、PageRank是一種可以表示為馬爾可夫鏈（Markov chain）的穩態概率分佈

如果認真思考上述的模型會發現一個問題（或者說是bug）

從數學角度看，這個問題是有可能某頁面沒有任何超連結，那麼這個頁面在整個模型（迭代）中不會向外分享任何自己的重要性係數，整個模型會趨於所有頁面的值都為0才能滿足這個模型。就算這個頁面同時沒有被任何頁面引用，那麼這個頁面的重要性將最終保持我們給它的初始值不變，這樣看也是不合理的。

從行為學角度看，如果一個頁面沒有任何超連結，網友會直接放棄衝浪關掉瀏覽器麼？還是說如果這個網頁沒有被任何其他頁面引用，那麼某人就不可能從另一個頁面轉到此頁面？答案很明顯是否定的。

因此，每個頁面除了把所有的瀏覽概率分配給自己有超連結的頁面外，還需要有一定概率給其他的頁面。

這裡需要分開討論

a）首先是迷途節點情況，在這種情況下，我們應該強制要求這種頁面分配自己的重要性分數給其他所有的頁面，而分配量均與分佈

b）對於所有的頁面，應該有一定概率將包括自己沒有超連結指向的所有頁面，當然這個概率分配需要人為地設計

*需要注意上述a、b是相互獨立的就是一定是先進性a再進行b

在解決上述問題後，我們可以就得到一個完整的馬爾可夫鏈模型，而這種訪問行為叫做random walk on graph（圖的隨機行走訪問？）

PageRank模型不是完美的，但是一種複雜度和功能性之間的一種很好的平衡

k表示迭代次數，paiT是pai的轉置，轉置是因為我們關注的是在整個網路中頁面收到的重要性得分量（標準化後體現為比例）

上圖為每次更新新的pai*i的值（i指被指向的頁面i）

另外，經過Google的大量實驗，

是一個合理的取值

3、PageRank演算法解決的不止迷途節點（Dangling Node）問題，而且還解決了最終連線塊（final connected components）問題

最終連線塊的意思是有幾個網頁，他們內部相互有超連結構成圖。但是，這些頁面的超連線沒有一個是這些網頁以外的。

也就是說如果吧這些頁面看成一個整體，那麼他們就像一個巨大的迷途節點，一旦通過超連結進入了這堆頁面就無法通過超連結離開了

解決原理其實和迷途節點一樣，就是新增強制的向外訪問可能性，對應上述b小點

Google PageRank演算法解析

PageRank演算法是Google進行搜尋排名的重要依據。該演算法早在十幾年前就谷歌廣泛應用在搜尋引擎上本文將討論有關此演算法的一些細節首先附上我對Networked Life - 20 Questions and Answers這本本書引言的翻譯內容，我認為這段用

來自Google的TCP BBR擁塞控制演算法解析

寫本文的初衷一部分來自於工作，更多的來自於發現國內幾乎還沒有中文版的關於TCP bbr演算法的文章，我想搶個沙發。本文寫於2016/10/15！本文的寫作方式可能稍有不同，之前很多關於OpenVPN，Netfilt

【大創_社區劃分】——PageRank演算法的解析與Python實現

一、什麼是pagerank PageRank的Page可是認為是網頁，表示網頁排名，也可以認為是Larry Page(google 產品經理)，因為他是這個演算法的發明者之一，還是google CEO

PageRank 演算法-Google 如何給網頁排名

> **公號：碼農充電站pro** > **主頁：** 在網際網路早期，隨著網路上的網頁逐漸增多，如何從海量網頁中檢索出我們想要的頁面，變得非常的重要。當時著名的雅虎和其它網際網路公司都試圖解決這個問題，但都沒能有一個很好的解決方案。直到1998 年前後，兩位斯坦福大學的博士生，拉里·佩奇和謝爾蓋·

Android中鎖屏密碼演算法解析以及破解方案

本文轉自一個牛逼的博主，最下是他的二維碼，原博地址：http://blog.csdn.net/jiangwei0910410003/article/details/74886918 一、前言最近玩王者榮耀，下載了一個輔助樣本，結果被鎖機了，當然破解它很簡單

python Kmeans演算法解析

一. 概述首先需要先介紹一下無監督學習，所謂無監督學習，就是訓練樣本中的標記資訊是位置的，目標是通過對無標記訓練樣本的學習來揭示資料的內在性質以及規律。通俗得說，就是根據資料的一些內在性質，找出其內在的規律。而這一類演算法，應用最為廣泛的就是“聚類”。聚類演算法可以對資料進行資料歸約，即在儘可能保證資

雪花演算法解析生成uuid

package com.grid.service; public class SnowflakeIdWorker { /** * 雪花演算法解析結構 snowflake的結構如下(每部分用-分開): * 0 - 0000000000 0000000000 000000

Vitalik的“99%容錯共識演算法”解析

Vitalik近期在其部落格上釋出了一篇名為《一個99%容錯共識的指南》讓許多人以為誕生了一個“黑科技”般的新共識演算法。然而正如Vitalik自己所說，這一共識演算法仍是經典拜占庭將軍問題的演算法。通過解析，我們可以看到共識演算法的研究與創新仍需要遵循CAP等已經被證明過的理論；在此基礎

三色旗問題演算法解析

問題: 在一根繩子上有一些紅,白,藍三種顏色的旗子,現在要把這些旗子按照藍,白,紅的順序排序. **要求:**旗子只能在繩子上移動,一次只能掉換兩個旗子位置程式碼: #define BLUE 'b' #define WHITE 'w

FFM演算法解析及Python實現

1. 什麼是FFM？通過引入field的概念，FFM把相同性質的特徵歸於同一個field，相當於把FM中已經細分的feature再次進行拆分從而進行特徵組合的二分類模型。 2. 為什麼需要FFM？在傳統的線性模型中，每個特徵都是獨立的，如果需要考慮特徵與特徵之間的相互作用，可能需要人工對特徵進行交叉

SLAM演算法解析抓住視覺SLAM難點瞭解技術發展大趨勢

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

AES標準及Rijndael演算法解析

轉載自：https://blog.dynox.cn/?p=1562 AES簡介 AES, Advanced Encryption Standard，其實是一套標準：FIPS 197，而我們所說的AES演算法其實是Rijndael演算法。 NIST (National INstitute

對PageRank演算法的理解

顧名思義，PageRank其實就是網頁排名的意思，當我們現在在一個搜尋引擎搜尋一個關鍵詞的時候，搜尋引擎如何將我們最想得到的資訊放在前面呢，這裡就涉及到了網頁的排名，在我們日常的搜尋中，除了商業上的競價排名，總的來說，一個特定的網頁搜尋取決於網頁的質量資訊和這個查詢與每個網頁的相關性資訊

非遞迴（棧）演算法解析XML思路申請專利

PageRank演算法初探

1. PageRank的由來和發展歷史 0x1：源自搜尋引擎的需求 Google早已成為全球最成功的網際網路搜尋引擎，在Google出現之前，曾出現過許多通用或專業領域搜尋引擎。Google最終能擊敗所有競爭對手，很大程度上是因為它解決了困擾前輩們的最大難題：對搜尋結果按重要性排序。而解決這個問題的演算法

Pagerank演算法學習

如何度量一個網頁本身的重要性? 某網頁被指向的次數越多，重要性越高越是重要的網頁，所連結的網頁的重要性也就越高如圖所示，鏈向網頁E的連結遠遠大於鏈向網頁C的連結，但是網頁C的重要性卻遠高於網頁E，這是因為網頁C被網頁B所連結，而網頁B具有很高的重要

Java中4大基本加密演算法解析 Java中4大基本加密演算法解析

Java中4大基本加密演算法解析 Base64是網路上最常見的用於傳輸8Bit位元組程式碼的編碼方式之一，大家可以檢視RFC2045～RFC2049，上面有MIME的詳細規範。簡單的java加密演算法有： BASE64

作業系統之銀行家演算法解析

作業系統之銀行家演算法解析（帶例題）利用銀行家演算法避免死鎖，首先我們先來明晰一下銀行家演算法的資料結構，其中必須設定四個資料結構，Available，Max，Allocation,Need. Available,又名可利用資源向量，顧名思義即資源中可利用的數目。 Max，最大需求矩陣

PageRank演算法簡介

PageRank演算法簡介最早的搜尋引擎採用的是分類目錄的方法，即通過人工進行網頁分類並整理出高質量的網站。當時的 Yahoo 和 hao123 就是使用的這種方法。後來網頁越來越多，人工分類已經不現實了。搜尋引擎進入了文字檢索的時代，即計算使用者查詢關鍵詞與網頁內容的相關程度來

人工智慧之機器學習CART演算法解析

　　人工智慧之機器學習主要有三大類：1）分類；2）迴歸；3）聚類。今天我們重點探討一下CART演算法。　　我們知道十大機器學習中決策樹算法佔有兩席位置，即C4．5演算法和CART演算法，可見CART演算法的重要性。下面重點介紹CART演算法。　　不同於ID3與C4．5，CART為一種二分

Google PageRank演算法解析

相關推薦