倒排索引學習筆記
阿新 • • 發佈:2020-10-20
概述
順序掃描法(正向搜尋法)
-
舉個例子:比如我們有大量的檔案,檔案編號從A,B,C。。。。。。
-
需求:要找出檔案內容中包含有java的所有檔案
-
需求實現:從A檔案開始查詢,再找B檔案,然後再找C檔案,以此類推。。。。。
弊端:如果檔案數量很多,查詢速度慢!!!
倒排索引法(反向/倒排搜尋法)
- 舉個例子:使用新華字典查詢漢字,先找到漢字的偏旁部首,再根據偏旁部首對應的目錄(索引)找到目標漢字。
一、倒排索引法中,索引包括哪些內容?
索引的內容包括:
1)文件(Document):需要被搜尋到的內容
2)詞條(Terms):把文件內容通過分詞器分成詞條(詞條是方便使用者搜尋使用的)
3)文件的編號和詞條頻率:記錄每個詞條在哪個文件出現過,出現過幾次。
4)詞條出現的文件位置: 每個詞條在文件哪個位置出現過。
二、如何使用倒排索引法搜尋資料?
1)先建立索引庫:建立詞條,詞條在文件出現的頻率及位置等資訊。
2)使用者通過搜尋索引庫獲取文件:搜尋到索引庫中的詞條,再根據詞條反向獲取文件(記錄)資料。