1. 程式人生 > >《集體智慧程式設計》第4章 搜尋與排名 個人筆記

《集體智慧程式設計》第4章 搜尋與排名 個人筆記

第4章 搜尋與排名

1、基於內容的排名

  • 單詞頻度:位於查詢條件中的單詞在文件中出現的次數能有助於我們判斷文件的相關程度。
  • 文件位置:文件的主題有可能會出現在靠近文件的開始處。搜尋引擎可以對待查單詞在文件中出現越早的情況給予越高的評價。
  • 單詞距離:如果查詢條件中更有多個單詞,則它們在文件中出現的位置應該考得很近。
  • 歸一化函式:有的評價方法數值越大越好,而有的則分值越小越好。為了對不同方法的返回結果進行比較,我們需要一種對及結果進行歸一化處理的方法。即,令它們具有相同的值域及變化方向。

2、利用外部回指連結

1)簡單計數

在每個網頁上統計連結的數目,並將連結總數作為針對網頁的度量。
為了得到與待查單詞更相關的內容,必須結合使用外部回指連結和基於內容的度量方法。

2)PageRank演算法

pr
網頁B、C、D均指向A,它們的PageRank值已有。B指向A和其他3個網頁,C指向A和其他4個網頁,D只指向A。則有,

R(A)=0.15+0.85[PR(B)/links(B)+PR(C)/links(C)+PR(D)/links(D))]=0.15+0.85(0.5/4+0.7/5+0.2/1)=0.54525
PageRank值初始化
為所有的PAgeRank都設定一個任意的初始值,然後反覆計算,迭代若干次。在每次迭代期間,每個網頁的PageRank值將會越來越接近其真實值,迭代次數視網頁數量而定。

3、從點選行為中學習

構造人工神經網路來改進搜尋引擎,具體的原理會在“深度學習”那塊會寫,這裡先略過。