《集體智慧程式設計》第4章搜尋與排名個人筆記

阿新 • • 發佈：2019-01-08

第4章搜尋與排名

1、基於內容的排名

單詞頻度：位於查詢條件中的單詞在文件中出現的次數能有助於我們判斷文件的相關程度。
文件位置：文件的主題有可能會出現在靠近文件的開始處。搜尋引擎可以對待查單詞在文件中出現越早的情況給予越高的評價。
單詞距離：如果查詢條件中更有多個單詞，則它們在文件中出現的位置應該考得很近。
歸一化函式：有的評價方法數值越大越好，而有的則分值越小越好。為了對不同方法的返回結果進行比較，我們需要一種對及結果進行歸一化處理的方法。即，令它們具有相同的值域及變化方向。

2、利用外部回指連結

1）簡單計數

在每個網頁上統計連結的數目，並將連結總數作為針對網頁的度量。
為了得到與待查單詞更相關的內容，必須結合使用外部回指連結和基於內容的度量方法。

2）PageRank演算法

網頁B、C、D均指向A，它們的PageRank值已有。B指向A和其他3個網頁，C指向A和其他4個網頁，D只指向A。則有，

R(A)=0.15+0.85∗[PR(B)/links(B)+PR(C)/links(C)+PR(D)/links(D))]=0.15+0.85∗(0.5/4+0.7/5+0.2/1)=0.54525
PageRank值初始化：
為所有的PAgeRank都設定一個任意的初始值，然後反覆計算，迭代若干次。在每次迭代期間，每個網頁的PageRank值將會越來越接近其真實值，迭代次數視網頁數量而定。

3、從點選行為中學習

構造人工神經網路來改進搜尋引擎，具體的原理會在“深度學習”那塊會寫，這裡先略過。

《集體智慧程式設計》第4章搜尋與排名個人筆記

第4章搜尋與排名 1、基於內容的排名單詞頻度：位於查詢條件中的單詞在文件中出現的次數能有助於我們判斷文件的相關程度。文件位置：文件的主題有可能會出現在靠近文件的開始處。搜尋引擎可以對待查單詞在文件中出現越早的情況給予越高的評價。單詞距離：如果查

集體智慧程式設計第四章[搜尋引擎與排名]總結

爬蟲程式我們開啟一個url，返回一個html檔案，它的格式類似下面的內容： <!DOCTYPE html PUBLIC "-//W2C//DTD XHTML 1.0 Transitioln//EN""http://www.w2.org/TR/xhtm

java_第4章繼承與多型_第4周程式設計題_將MP3媒體型別存放進Database

本週我們介紹了以繼承方式實現的媒體資料庫，在課程程式碼實現的基礎上，請實現一個表達MP3的媒體型別，能和CD、DVD一樣存放進這個Database。請提交這個MP3類的程式碼。如果你認為為了能存放MP3，需要修改Item和Database，也請一併提交Item和Database的程式碼

第4章物件與類

1.在物件與物件變數之間存在著一個重要的區別。例如，語句 Date deadline ; / / deadline doesn ' t refer to any object 定義了一個物件變數 deadline , 它可以引用 Date 型別的物件。但是，一定要認識

《深入分散式快取》第4章Ehcache 與guava cache

一序本文屬於《深入分散式快取》讀書筆記，第一章：快取為王主要介紹快取概念，以及引入快取的背景：提升使用者體驗。還介紹了快取的分類，第二章主要介紹分散式理論。個人覺得第二章可以去掉，畢竟是泛泛的介紹。還是專門去看有主題的書比較好，比如《<從PAXOS

大話資料結構讀書筆記艾提拉總結查詢演算法和排序演算法比較好第1章資料結構緒論 1 第2章演算法 17 第3章線性表 41 第4章棧與佇列 87 第5章串 123 第6章樹 149 第7章圖 21

大話資料結構讀書筆記艾提拉總結查詢演算法和排序演算法比較好第1章資料結構緒論 1 第2章演算法 17 第3章線性表 41 第4章棧與佇列 87 第5章串 123 第6章樹 149 第7章圖 211

第4章模組與函式

1.模組 1)在erlang中定義函式,在未編譯前後綴名為.erl,編譯後後綴名為.beam 2)以geometry.erl模組為例,首先使用pwd(),顯示出編譯時所在的目錄,如本機顯示為D:/Erlang/erl7.3/usr ,故在該目錄下,新建txt檔案並修

第4章類與物件

類與物件面向物件程式的基本特點抽象封裝繼承多型類和物件類和物件的定義類定義的語法形式類內初始值類成員的訪問控制公有型別成員

集體智慧程式設計第二三章學習總結

2 基於物品的協同過濾：應用場景，當我們在豆瓣只看過一部看過電影《泰囧》並且認為評分還不錯（此時網站還沒有收集使用者足夠多的資訊，無法用基於使用者的協同過濾推薦），下次登陸豆瓣的時候會推薦《港囧》，這裡使用的方法就是基於物品的協同過濾。假如有很多很多電影，我們找到很多人的觀看記錄和評價記錄。比如電影《港囧》我

CodeMonke少兒程式設計第1章 step與turn

## 目標 ## * 瞭解遊戲舞臺的各組成部分 * 掌握**step**和**turn**指令的用法說起計算機，對於不瞭解它的人來說，也許會感到有些神祕，其實不然，它不過是能夠接收指令並且按照指令執行的一種機器。計算機一點也不神祕，它的最大優勢，就在於它的執行速度非常非常非常之快。就在前幾天，在

the c programming language second edition 第四章函式與程式結構筆記及練習題中

the c programming language second edition 第四章函式與程式結構筆記 4.3外部變數 C語言程式可以看成由一系列的外部物件構成，這些外部物件可能是變數或函式外部變數和函式具有以下性質：通過同一個名字對外部變數的所有引

the c programming language second edition 第四章函式與程式結構筆記及練習題上

the c programming language second edition 第四章函式與程式結構筆記 4.1函式的基本認識編寫一個程式它將輸入中包含特定模式或字串的各行打印出來。該任務可以明確地劃分成下列3部分： while(未處理的行) if

集體智慧程式設計——搜尋與排名-Python實現

學習構建一個簡易的搜尋引擎，步驟如下：網頁抓取：從一個或一組特定的網頁開始，根據網頁內部連結逐步追蹤到其他網頁。這樣遞迴進行爬取，直到到達一定深度或達到一定數量為止。建立索引：建立資料表，包含文件中所有單詞的位置資訊，文件本身不一定要儲存到資料庫中，索引

《集體智慧程式設計》第12章演算法總結個人筆記

第12章演算法總結 12.1 貝葉斯分類器優點：訓練、查詢速度快；支援增量式訓練；易解釋缺點：無法處理基於特徵組合所產生的變化結果 12.2 決策樹分類器優點：易解釋；容易

讀書筆記---《集體智慧程式設計》第3章：發現群組

1.關於聚類的理解聚類實際上就是分類，對一些樣本（樣品）進行歸類分組。本章第一個例子是對99篇部落格進行聚類，也就是說每一篇部落格便是一個樣本。要分類就要有分類的標準（指標）。比如把人按地區、身高、體重分類，那地區、身高、體重就是指標。抽象地說，對樣本X，設

《集體智慧程式設計》程式碼勘誤：第六章

一：勘誤 classifier類中： def fprob(self, f, cat): if self.catcount(cat) == 0: return 0 #notice: rember change int to double or float

“集體智慧程式設計”之第七章：決策樹

什麼是決策樹？如果將決策樹和上一章的分類器一起講述，那麼決策樹這種演算法也是用於對物品分類的，書有一個非常簡單的例子，能幫助我理解什麼是決策樹。給你一個水果，你可以通過以下方式判斷出這是一個什麼水果。可以看出，決策樹上就是一個又一個

【集體智慧程式設計】第三章、發現群組

一、前言本章中，我們將學習到如下內容：從各種不同的來源中構造演算法所需的資料；兩種不同的聚類演算法；更多有關距離度量（distance metrics）的知識；簡單的圖形視覺化程式碼，用以觀察所生成的群組；最後，我們還會學習如何將異常複雜的資料集投影到二維空間中。聚類

“集體智慧程式設計”之第三章：“發現群組”的分級聚類

聚類這章的主旨是資料聚類：聚集關係緊密的人或者事物。聚類有什麼好處呢？從推薦的角度來看，也是一種求相似使用者的方式。此外，如果我們統計消費者此前購買的物品，再做一個聚類，就能分析出什麼樣的消費者會想要得到什麼。如此抽象的描述非常不利於學習，不過下面本章第二

【筆記】《WebGL程式設計指南》學習-第4章高階變換與動畫基礎(1-平移然後旋轉）)

目標：實現三角形的先旋轉再平移結果：本節要使用一個專為本書編寫的矩陣函式庫。有了矩陣函式庫，進行如“平移，然後旋轉”這種複合的變換就很簡單了。矩陣變換庫：cuon-matrix.js 在 OpenGL 中，我們無需手動指定變換矩陣的每

《集體智慧程式設計》第4章 搜尋與排名 個人筆記

第4章 搜尋與排名

1、基於內容的排名

2、利用外部回指連結

1）簡單計數

2）PageRank演算法

3、從點選行為中學習

相關推薦

《集體智慧程式設計》第4章搜尋與排名個人筆記

第4章搜尋與排名