搜尋引擎ElasticSearch入門

阿新 • • 發佈：2020-06-23

前言

最近專案上需要用到搜尋引擎，由於之前自己沒有了解過，所以整理了一下搜尋引擎的相關概念知識。

正文

想查資料就免不了搜尋，搜尋就離不開搜尋引擎，百度、谷歌都是一個非常龐大複雜的搜尋引擎，他們幾乎索引了網際網路上開放的所有網頁和資料。然而對於我們自己的業務資料來說，肯定就沒必要用這麼複雜的技術了，如果我們想實現自己的搜尋引擎，方便儲存和檢索，可以快速地儲存、搜尋和分析海量資料。搜尋引擎有很多種，我這裡主要講兩種比較流行的搜尋引擎框架 Elasticsearch 和 Lucene 搜尋引擎。

一、搜尋引擎實現核心

Lucene/Elasticsearch 實現快速搜尋的核心就是倒排索引，Lucene/Elasticsearch 就是儘量將磁碟裡的東西搬進記憶體，減少磁碟隨機讀取次數(同時也利用磁碟順序讀特性)，結合各種壓縮演演算法，高效使用記憶體，從而達到快速搜尋的特性。

核心概念：https://www.cnblogs.com/valor-xh/p/6206042.html

https://blog.csdn.net/sinat_42338962/article/details/85227902

二、Lucene搜尋引擎

百度百科：是 Apache 軟體基金會4 Jakarta專案組的一個子專案，是一個開放原始碼的全文檢索引擎工具包（實際就是一個 Jar 包），但它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎。Lucene 是一套資訊檢索工具包，並不包含搜尋引擎系統，它包含了索引結構、讀寫索引工具、相關性工具、排序等功能，因此在使用 Lucene 時仍需要關注搜尋引擎系統，例如資料獲取、解析、分詞等方面的東西。Lucene 提供了一個簡單卻強大的應用程式介面，能夠做全文索引和搜尋。

Lucene，最先進、功能最強大的搜尋庫，直接基於Lucene開發，非常複雜，Api複雜（實現一些簡單的功能，寫大量的java程式碼），需要深入理解原理（各種索引結構）。Lucene只是一個庫。想要使用它，你必須使用Java來作為開發語言並將其直接整合到你的應用中，更糟糕的是，Lucene的配置及使用非常複雜，你需要深入瞭解檢索的相關知識來理解它是如何工作的。

三、ElasticSearch搜尋引擎

百度百科：ElasticSearch 是一個基於 Lucene 的搜尋伺服器。它提供了一個分散式多使用者能力的全文搜尋引擎，基於 RESTful web 介面。Elasticsearch 是用Java語言開發的，並作為Apache許可條款下的開放原始碼釋出，是一種流行的企業級搜尋引擎。ElasticSearch 用於雲端計算中，能夠達到實時搜尋，穩定，可靠，快速，安裝使用方便。

ElasticSearch 的實現原理主要分為以下幾個步驟，首先使用者將資料提交到Elastic Search 資料庫中，再通過分詞控制器去將對應的語句分詞，將其權重和分詞結果一併存入資料，當使用者搜尋資料時候，再根據權重將結果排名，打分，再將返回結果呈現給使用者。

Elasticsearch，基於 Lucene，隱藏複雜性，提供簡單易用的R estful Api 介面、Java Api 介面（還有其他語言的Api 介面）

分散式的檔案儲存引擎
分散式的搜尋引擎和分析引擎
分散式，支援PB級資料

四、Lucene和ElasticSearch優缺點對比

這兩種搜尋引擎各自都有自己的特點，現在我來總結一下：

聯絡：ElasticSearch 封裝了 Lucene，讓使用變得更簡單，ElasticSearch 除了擁有Lucene 所有優點以外，還有自己的優點：

可用性：支援叢集沒有單點障礙，

擴充套件性：支援叢集擴充套件-高併發

在叢集環境中使用：大專案使用

ElasticSearch全文檢索伺服器，所有專案都統一訪問索引伺服器，支援在叢集環境中使用， Lucene全文檢索引擎工具包，必須整合到專案中使用，不支援在叢集環境下使用。
ElasticSearch支援多種語言，Lucene只支援java
ElasticSearch簡單，都是http請求，而Lucene複雜，都需要呼叫API執行一大推操作。
一般Lucene在中小型專案中使用，ElasticSearch都適用（大中小），因為ES支援在叢集環境中使用，並且自身也支援叢集。
Luncene需要二次開發，才能使用。不能像百度或谷歌一樣，它只是提供一個介面需要被實現才能使用。 ElasticSearch直接拿來用。
封裝了更多高階的功能，例如聚合分析的功能，基於地理位置的搜尋
ES自動可以將海量資料分散到多臺伺服器上去儲存和檢索

綜上所述：搜尋引擎選擇用 ElasticSearch

五、SpringBoot整合ElasticSearch

SpringBoot 整合 Elasticsearch 常用的方式有以下三種：

Java API

這種方式基於TCP和ES通訊，官方已經明確表示在ES 7.0版本中將棄用TransportClient客戶端，且在8.0版本中完全移除它,所以不提倡。

REST Client

上面的方式1是基於TCP和ES通訊的(而且 TransPort 將來會被拋棄……)，官方也給出了基於HTTP的客戶端REST Client(推薦使用)，官方給出來的REST Client有Java Low Level REST Client和Java Hight Level REST Client兩個，前者相容所有版本的ES，後者是基於前者開發出來的，只暴露了部分API，待完善

Spring-Data-Elasticsearch（推薦）

除了上述方式，Spring 也提供了本身基於 SpringData 實現的一套方案Spring-Data-Elasticsearch。為什們推薦這種呢，因為這種方式 Spring 為我們封裝了常見的es操作。和使用 Jpa 操作資料庫一樣方便。

在ES中一個 Index 可以理解為一個庫，Type 就是一張表，一個Index可以對應多個Type，或者一個Index只能對應一個Type（從6.0.0 起就是一對一）。

六、Elasticsearch的安裝

從網上把 Elasticsearch 的安裝包下載下來之後，直接解壓，進入bin目錄下,雙擊執行Elasticsearch.bat，看到Started 說明啟動成功,開啟瀏覽器測試一下，輸入http://localhost:9200/，則成功。

Elasticsearch-Head外掛

Elasticsearch-Head將是一款專門針對於 Elasticsearch 的客戶端工具，類似 Mysql 的 Sqlyog 或者 Navicat資料庫軟體視覺化介面。

執行head外掛：grunt server

訪問：localhost:9100

七、ElasticSearch實現聯表查詢

SpringBoot整合ElasticSearch+父子查詢

父子關係的type和對映關係要提前建立好。

這裡講一下三種實現方式：

巢狀查詢 Nested Query：檔案包含 nested 型別的欄位。這些欄位用來索引陣列物件，其中每個物件作為獨立的檔案可以被檢索（使用 nested 查詢）。
父子查詢Has_Child 和 Has_Parent ：父子關係可以在一個單獨的索引中的兩個檔案型別間存在。has_child 查詢返回了父檔案，其子檔案匹配了特定的查詢。而 has_parent 查詢返回子檔案，其父檔案匹配了特定的查詢。（類似於主外來鍵）要點：父子關係元資料對映，用於確保查詢時候的高效能，但是有一個限制，就是父子資料必須存在於一個shard中
應用層聯接。

八、Nested 和 Parent-Child的區別以及使用場景

巢狀查詢和父子查詢的主要區別：

由於儲存結構的不同，Nested 和 Parent-Child 的方式有不同的應用場景，Nested 所有實體儲存在同一個檔案，而 Parent-Child 模式得子 Type 和父Type 儲存在不同的檔案裡。所以查詢效率上 Nested 要高於 Parent-Child，但是更新的時候 Nested 模式下，ElasticSearch 會刪除整個檔案再建立，而 Parent-Child 只會刪除你更新的檔案在重新建立，不影響其他檔案。所以更新效率上 Parent-Child 要高於 Nested。

巢狀查詢和父子查詢的具體的使用場景：

Nested：在少量子檔案，並且不會經常改變的情況下使用。比如：訂單裡面的產品，一個訂單不可能會有成千上萬個不同的產品，一般不會很多，並且一旦下單後，下單的產品是不可更新的。

Parent-Child：在大量檔案，並且會經常發生改變的情況下使用。比如：使用者的瀏覽記錄，瀏覽記錄會很大，並且會頻繁更新

總結

以上就是我關於搜尋引擎的相關總結，當然這篇文章只能算是對搜尋引擎的一個入門，後面我還會出相關的文章的哦。

公眾號：良許Linux

搜尋引擎ElasticSearch入門

前言

正文

一、搜尋引擎實現核心

二、Lucene搜尋引擎

三、ElasticSearch搜尋引擎

四、Lucene和ElasticSearch優缺點對比

五、SpringBoot整合ElasticSearch

六、Elasticsearch的安裝

七、ElasticSearch實現聯表查詢

八、Nested 和 Parent-Child的區別以及使用場景

總結

有收穫？希望老鐵們來個三連擊，給更多的人看到這篇文章

搜尋引擎ElasticSearch入門

Elasticsearch入門(1)-倒排索引和分詞器

Elasticsearch入門(3)-mapping

ElasticSearch入門（整合SpringBoot）

分散式搜尋引擎ElasticSearch

分散式搜尋引擎-ElasticSearch詳解

全文搜尋引擎 Elasticsearch （四）MySQL如何實時同步資料到ES

分散式搜尋引擎 Elasticsearch 的架構分析

Elasticsearch入門，這一篇就夠了

理想國Elasticsearch入門教程

(精華)2020年8月18日 C#基礎知識點搜尋引擎ElasticSearch的使用

1. Elasticsearch 入門安裝與部署

初識搜尋引擎 Elasticsearch

ElasticSearch入門檢索

ElasticSearch入門

Elasticsearch 入門，安裝和啟動

PHP系列 | 搜尋引擎meilisearch入門介紹

初學者都能學會的ElasticSearch入門實戰

Elasticsearch入門之索引操作（建立、檢視、刪除）

Elasticsearch入門到進階

搜尋引擎ElasticSearch入門

前言

正文

一、搜尋引擎實現核心

二、Lucene搜尋引擎

三、ElasticSearch搜尋引擎

四、Lucene和ElasticSearch優缺點對比

五、SpringBoot整合ElasticSearch

六、Elasticsearch的安裝

七、ElasticSearch實現聯表查詢

八、Nested 和 Parent-Child的區別以及使用場景

總結

有收穫？希望老鐵們來個三連擊，給更多的人看到這篇文章

相關推薦