1. 程式人生 > >全文檢索基礎

全文檢索基礎

是否 所有 document 用戶 spa 技術 文本 class 技術分享

一、全文檢索基礎

1、信息源 --> 分詞器 --> 建立索引庫

2、文本在建立索引和搜索的時候,都會先進行分詞

3、索引庫的結構

  索引表:存放具體詞匯,哪些詞匯在哪些文檔裏面存儲。索引表裏面存儲的就是分詞器分詞之後的結果

  數據源:文本信息集合

4、用戶搜索時,首先經過分詞器進行分詞,然後去索引表裏面查找對應的詞匯( 利用倒排序索引算法 ),再找到對應的文檔集合

5、信息集合裏每一條數據都是一個 document ( 存儲所有信息,他是一個 Field 屬性的集合 )

6、sorre 是否進行存儲

7、index 是否進行索引

二、存儲數據到索引庫

  將數據源存儲到索引庫之前,會先進行分詞器分詞,然後將數據存儲到索引庫。索引庫包含了兩個部分,一個數全量數據塊,用來存儲數據源。一個是索引表,用來存儲分詞器分詞之後的詞語

技術分享圖片

三、用戶搜索

  首先經過分詞器進行分詞,然後去索引表裏面查找對應的詞匯( 利用倒排序索引算法 ),再找到對應的文檔集合,將文檔集合返回給用戶

技術分享圖片

全文檢索基礎