1. 程式人生 > 實用技巧 >ElasticSearch學習——搜尋技術基礎知識

ElasticSearch學習——搜尋技術基礎知識

1. 資料搜尋方式

Elasticsearch作為一個搜尋引擎,主要的任務就是對資料進行檢索,為了更好的實現目的,首先需要對資料進行一定的瞭解。

資料有兩種型別:

  • 結構化資料
    • 特點:格式固定,長度有限。
  • 非結構化資料
    • 特點:格式不固定,長度不定。

對於結構化資料,資料的搜尋方式主要有順序掃描關鍵詞精確匹配關鍵詞部分匹配等。

對於非結構化資料,資料的搜尋方式主要有順序掃描全文檢索兩種方法。受到非結構化資料特點的影響,順序掃描對於處理非結構化資料的效率很低,因此全文檢索方式應運而生,而全文搜尋就是Elasticsearch所要做的事情。

2. 搜尋引擎工作原理

graph LR A(使用者) --搜尋關鍵詞--> B(輸入內容預處理) B --> C(搜尋關鍵詞查詢) C --> D(索引庫) E(網際網路) --> F(網路爬蟲) F --> G(網頁庫) G --> H(資料預處理) H --> I(資料索引) I --> D

搜尋引擎的工作原理分為兩個階段:

  • 網頁資料爬取和索引階段
    • 包括:網路爬蟲、資料預處理、資料索引。
  • 搜尋階段
    • 包括:搜尋關鍵詞、輸入內容預處理、搜尋關鍵詞查詢。

3. 網路爬蟲工作原理

4. 網頁分析

5. 倒排索引