1. 程式人生 > 實用技巧 >倒排索引學習筆記

倒排索引學習筆記

概述

順序掃描法(正向搜尋法)

  • 舉個例子:比如我們有大量的檔案,檔案編號從A,B,C。。。。。。

  • 需求:要找出檔案內容中包含有java的所有檔案

  • 需求實現:從A檔案開始查詢,再找B檔案,然後再找C檔案,以此類推。。。。。

    弊端:如果檔案數量很多,查詢速度慢!!!

倒排索引法(反向/倒排搜尋法)

  • 舉個例子:使用新華字典查詢漢字,先找到漢字的偏旁部首,再根據偏旁部首對應的目錄(索引)找到目標漢字。
  • 在這裡插入圖片描述
    在這裡插入圖片描述

一、倒排索引法中,索引包括哪些內容?

索引的內容包括:

1)文件(Document):需要被搜尋到的內容

2)詞條(Terms):把文件內容通過分詞器分成詞條(詞條是方便使用者搜尋使用的)

3)文件的編號和詞條頻率:記錄每個詞條在哪個文件出現過,出現過幾次。

4)詞條出現的文件位置: 每個詞條在文件哪個位置出現過。

二、如何使用倒排索引法搜尋資料?

​ 1)先建立索引庫:建立詞條,詞條在文件出現的頻率及位置等資訊。

​ 2)使用者通過搜尋索引庫獲取文件:搜尋到索引庫中的詞條,再根據詞條反向獲取文件(記錄)資料。