搜尋引擎學習筆記-第二章 Web搜尋引擎工作原理和體系結構

阿新 • • 發佈：2019-01-21

搜素引擎，應用軟體系統，網路應用軟體系統。三個功能模組，或說三個子系統：即網頁蒐集、預處理和查詢服務。相互獨立它們的工作形成了搜尋引擎工作的三個階段，通常分別由人工啟動。
第二章 Web搜尋引擎工作原理和體系結構
基本要求
能夠接受使用者通過瀏覽器提交的查詢詞或者短語，記作q。在一個可以接受的時間內返回一個和使用者查詢匹配的網頁資訊列表，記作L。
注意：
“可以接受的時間”即是響應時間。保證秒級響應時間。
“匹配”指的是網頁中以某種形式包含q的內容。其中最簡單、最常見的形式就是q在其中直接出現。
“列表”，這蘊含這一種“序”。在絕大多數情況下，L是相當長的。不僅是因為Web的資訊量大，也是由於搜尋引擎的查詢方式簡單。簡單意味著抽象；抽象意味著有更多的具體事務可能是它的體現。很多都沒用。
網頁蒐集

工作方式，這個軟體系統操作的資料不僅包括內容不可預測的使用者查詢，還要包括在數量上動態變化的海量網頁，並且這些網頁不會主動送到系統來，而是需要由系統去抓取。
首先，考慮抓取時機：預先抓取蒐集一批網頁，而不是即時查詢時去抓取。那麼這一批網頁如何維護？兩種考慮：
定期蒐集，每次蒐集替換上一次的內容，我們稱之為ie“批量搜尋”。花銷很大，因此通常兩次蒐集的間隔時間不會很短（例如早期天網的版本大約每3個月一次，Google在一段時間曾是28天來一次）。好處是系統實現比較簡單，缺點是“時新性”（freshness）不高，還有重複蒐集帶來的額外頻寬的消耗。
增量蒐集，開始蒐集一批，往後只是（1）蒐集新出現的網頁，（2）蒐集那些在上次蒐集後有過改變的網頁，（3）發現自從上次蒐集後已經不再存在的網頁，並從庫中刪除。由於除新聞網站外，許多網頁的內容變化不是很經常的（有研究指出50%網頁的平均生命週期大約50天），這樣蒐集量不會很大，於是每天可以啟動蒐集過程。

這是系統網頁資料庫維護的基本策略。具體蒐集過程中，如何抓取一篇篇的網頁：“爬取”，看成“有向圖”，集合S，遍歷。真正的系統其實是多個“蜘蛛”同時在爬。這樣可以蒐集儘量重要的網頁，研究表明，先寬搜尋方式得到的網頁集合比先深搜尋得到的集合重要。向大型商業搜尋引擎提交網址。
預處理
一個合適的資料結構是查詢子系統工作的核心和關鍵。現行最有效的資料結構是“倒排檔案”（inverted file）；倒排檔案是用文件中所含關鍵詞作為索引，文件作為索引目標的一種資料結構（類似於普通書籍中，索引是關鍵詞，書的頁面是索引目標）。
預處理主要包括四個方面：關鍵詞的提取，“映象網頁”（網頁內容完全相同，未加修改）或“轉載網頁”（near-replicas，主題內容基本相同但可能有一些額外的編輯資訊等，轉載網頁也稱為“近似映象網頁”)的消除，連結分析和網頁重要程度的計算。
關鍵詞的提取

對中文來說，就是要根據一個詞典，用一個所謂“切詞軟體”，從網頁中切出字典中所含的詞語來。從效果和效率考慮，去掉沒意義的詞，稱為“停用詞”（stop Word）
重複和轉載頁面的消除
因為網頁重複率太高，消耗資源和時間。
連結分析
網頁重要程度的計算
核心想法“被引用多的就是重要的”。Google創立核心技術PageRank就是這種思路。
查詢服務
查詢方式和匹配
結果排序
文件摘要
體系結構

“控制器”大規模搜尋引擎文件的提供網頁資料，每天要蒐集上百萬網頁，而且是持續進行，情況很複雜，核心是要綜合解決效率、質量和“禮貌”的問題，這就是“控制器”的作用。
所謂效率，就是如何利用盡量少的資源（計算機裝置、網路頻寬、時間）來完成預定的網頁蒐集量。由於網頁之間的獨立性，利用多臺計算機同事做這項工作很不錯。但這裡要注意三點：第一，即是用一臺計算機來蒐集網頁，也應該注意併發性的開發和利用。第二點，並不是裝置越多越好。裝置多頻寬就會成為瓶頸。第三點，發生在網路的另一端，即服務方，它可能來不及提供所需的網頁。
將蒐集活動過多的集中在幾個網站上，或者在一小段時間裡從一個網站抓取太多的網頁還可能引起其他的嚴重後果，即所謂“禮貌”問題。不加控制的網頁抓取給網站造成的現象有時候和製造拒絕服務（Denial of Servide， DoS）攻擊的黑客造成的現象一樣。
所謂質量問題，指的是，在有限的時間內蒐集有限的網頁，希望它們儘量是比較重要的網頁，或者說不漏掉那些很重要的網頁。
還有一個問題，就是要保證每個網頁不被重複抓取。多次被抓取，遇到迴圈連結的情況，還會使爬取器陷死。解決這個問題的有效辦法是使用兩個表，unvisited_table和visited_table。前者包含尚未訪問的URL，後者記錄已經訪問的URL。

搜尋引擎學習筆記-第二章 Web搜尋引擎工作原理和體系結構

搜尋引擎學習筆記-第二章 Web搜尋引擎工作原理和體系結構

js學習筆記-第二章變數、作用域和記憶體問題-執行環境和作用域

《Web前端黑客技術揭祕》學習筆記第二章（二）

《呂鑫：VC++6.0就業培訓寶典之MFC視頻教程》學習筆記 -- 第二章 MFC原理介紹

網絡是怎樣連接的學習筆記-第二章-連接服務器

網路是怎樣連線的學習筆記-第二章-收發資料(上)

網路是怎樣連線的學習筆記-第二章-從伺服器斷開並刪除套接字

網路是怎樣連線的學習筆記-第二章-IP與乙太網的包收發操作(二)

網絡是怎樣連接的學習筆記-第二章-IP與以太網的包收發操作(四)

網路是怎樣連線的學習筆記-第二章-IP與乙太網的包收發操作(四)

網絡是怎樣連接的學習筆記-第二章-UDP協議的收發操作

python《資料科學入門》學習筆記第二章 2018-8-17開始

《ESL》學習筆記-第二章監督學習概述

周志華西瓜書《機器學習筆記》學習筆記第二章《模型的評估與選擇》

Nginux學習筆記第二章

《Python自然語言處理》學習筆記-第二章

第一行程式碼學習筆記第二章——探究活動

c++ primer 第五版學習筆記-第二章變數和基本型別

學習筆記第二章 GIS之瓦片地圖

【Oracle效能診斷藝術】學習筆記----第二章：關鍵概念

搜尋引擎學習筆記-第二章 Web搜尋引擎工作原理和體系結構

相關推薦