ElasticSearch 介紹、Docker安裝以及基本檢索

阿新 • • 發佈：2020-12-12

一、簡介
二、基本概念
三、在Docker環境中安裝 ES + Kibana
- 3.1 下載映象
- 3.2 建立例項
  - 3.2.1 elasticsearch
  - 3.2.2 kibana
四、初步檢索

一、簡介

1.1 什麼是Elasticsearch？

Elasticsearch是一個分散式的開源搜尋和分析引擎，適用於所有型別的資料，包括文字、數字、地理空間、結構化和啡結構化資料。Elasticsearch 在Apache Lucene的基礎上開發而成，由Elasticsearch N.V. (即現在的Elastic)於2010年首次釋出。Elasticsearch 以其簡單的REST風格API、分散式特性、速度和可擴充套件性而聞名，是Elastic Stack

的核心元件: Elastic Stack是適用於資料採集、充實、儲存、分析和視覺化的一組開源工具。人們通常將Elastic Stack稱為ELK Stack (代指Elasticsearch、Logstash和Kibana)，目前Elastic Stack包括一系列豐富的輕星型資料採集代理，這些代理統稱為Beats,可用來向Elasticsearch傳送資料。

1.2 Elasticsearch 的用途

Elasticsearch在速度和可擴充套件性方面表現出色，能夠索引多種型別的內容，意味著可以用於多種用例：

應用程式搜尋
網站搜尋
企業搜尋
日誌處理分析
基礎設施指標和容器檢測
應用程式效能檢測

地理空間資料分析和視覺化
安全分析
業務分析

1.3 Elasticsearch 的工作原理

原始資料會從多個來源（包括日誌、系統指標和網路應用程式）輸入到 Elasticsearch 中。資料採集指在Elasticsearch中進行索引之前解析、標準化並充實這些原始資料的過程。這些資料在 Elasticsearch 中索引完成之後，使用者便可針對他們的資料運行復雜的查詢，並使用聚合來檢索自身資料的複雜彙總。在 Kibana 中，使用者可以基於自己的資料建立強大的視覺化，分享儀表板，並對 Elastic Stack 進行管理。

1.4 Elasticsearch 索引是什麼？

Elasticsearch 索引指相互關聯的文件集合。Elasticsearch 會以 JSON 文件的形式儲存資料。每個文件都會在一組鍵（欄位或屬性的名稱）和它們對應的值（字串、數字、布林值、日期、數值組、地理位置或其他型別的資料）之間建立聯絡。
Elasticsearch 使用的是一種名為倒排索引的資料結構，這一結構的設計可以允許十分快速地進行全文字搜尋。倒排索引會列出在所有文件中出現的每個特有詞彙，並且可以找到包含每個詞彙的全部文件。
在索引過程中，Elasticsearch 會儲存文件並構建倒排索引，這樣使用者便可以近實時地對文件資料進行搜尋。索引過程是在索引 API 中啟動的，通過此 API 您既可向特定索引中新增 JSON 文件，也可更改特定索引中的 JSON 文件。

二、基本概念

2.1 Index（索引）

動詞：相當於 MySQL 中的 insert
名詞：相當於 MySQL 中的 Database

2.2 Type（型別）

在 index （索引）中，可以定義一個或多個型別，類似於 MySQL 中的 Table ，每一種型別的資料放在一起

把一條資料存在 ES 的某個索引的某個型別下，相當於 MySQL 的某個資料庫的某張表下

2.3 Document （文件）

儲存在某個索引（資料庫）下，某種型別（表）的一個 Document 文件（一條資料），文件是 JSON格式的，Document 就像是 MySQL 中的某個 Table 裡面的內容。

三、在Docker環境中安裝 ES + Kibana

3.1 下載映象

docker pull elasticsearch:7.4.2
docker pull kibana:7.4.2

3.2 建立例項

3.2.1 elasticsearch

先在本機中建立一個自己的目錄，如：/mydata/elasticsearch ，然後再目錄底下建立三個資料夾 data 、 config 和plugins，為後面建立elasticsearch例項時，可以做一個檔案對映，便於我們對 es 例項進行修改。
同時，在 config 資料夾裡，新建 elasticsearch.yml 配置檔案，並配置 es 可以被遠端的任何機器進行訪問

mkdir -p /mydata/elasticsearch/data
mkdir -p /mydata/elasticsearch/config
mkdir -p /mydata/elasticsearch/plugins

echo "http.host:0.0.0.0" >> /mydata/elasticsearch/config/elasticsearch.yml

啟動 elasticsearch 例項

docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \
-e "discovery.type=single-node" \
-e ES_JAVA_OPTS="-Xms64m -Xmx256m" \
-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
-v /mydata/elasticsearch/data:/usr/share/elasticsearch/data \
-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \
-d elasticsearch:7.4.2

-e "discovery.type=single-node" : 設定 es 為單節點執行
-e ES_JAVA_OPTS="-Xms64m -Xmx256m"：設定 es 的最小記憶體使用 64M ，最大記憶體使用為 256 M

啟動成功後，訪問 http://主機IP:9200 ，能看到如下資訊，即為建立成功

注：如果啟動失敗，可以通過命令 docker logs elasticsearch 檢視啟動日誌，可能出現的錯誤：
1、沒有許可權訪問。因為我們啟動的命令掛載到了外面，所以可能存在無法訪問的寫入的許可權

解決方案：使用命令 chmod -R 777 /mydata/elasticsearch 給任何使用者任何組所有許可權，重啟es例項即可。

3.2.2 kibana

kibana只需要建立例項，關聯我們剛剛的es即可

docker run --name kibana -e ELASTICSEARCH_HOSTS=http://主機IP:9200 \
-p 5601:5601 -d kibana:7.4.2

上面的命令是根據官方文件檢視而來的，不過這條命令在虛擬機器中好像無法啟動（我本地 [vmware 15.6 + centos7] 的環境下，一直無法啟動成功，連線失敗），而在阿里雲ESC伺服器上，可以成功啟動，遇到上訴的情況，可以通過下面這條命令檢視 es 實際暴露的 ip，把上面的主機 IP 修改為對應的 ip 即可

//007e為elasticsearch的id
docker inspect 007e 或者 docker inspect elasticsearch

則，kibana 建立的示例的命令為

docker run --name kibana -e ELASTICSEARCH_HOSTS=http://172.17.0.3:9200 \
-p 5601:5601 -d kibana:7.4.2

由於我們剛剛在執行前一個命令的時候，已經建立了一個名為 kibana 的例項，所以需要先刪除後，在執行上一步的命令

// 檢視所有執行中的例項
docker ps
// 檢視所有的例項
docker ps -a
// 刪除 kibana 的例項
docker rm kibana

訪問 http://主機ip:5601 ，看到如下頁面即為建立成功

可使用下面的兩個命令，使得我們主機重啟後，例項也會自動啟動
docker update --restart=always elasticsearch
docker update --restart=always kibana

四、初步檢索

4.1 _cat

4.1.1 檢視節點資訊

GET http://主機ip:9200/_cat/nodes

4.1.2 檢視健康狀況

GET http://主機ip:9200/_cat/health

4.1.3 檢視主節點資訊

GET http://主機ip:9200/_cat/master

4.1.3 檢視所有的索引

GET：http://主機ip:9200/_cat/indices

4.2 索引一個文件

MySQL：儲存一條資料到表中

儲存一個數據，儲存在哪個索引的哪個型別下, 可以指定唯一標識

MySQL: 儲存在哪個資料庫的哪張表下

4.2.1 put帶ID儲存

新增更新二合一，第一次傳送為新增，後面的則為更新。不指定id會報錯，一般用做於修改
PUT /customer/external/1

{
    "name": "John Doe"
}

4.2.2 POST儲存

新增修改二合一，不帶ID或者帶ID但是之前沒有資料為新增，帶ID且之前有資料，為修改
PUT /customer/external/

{
    "name": "John Doe"
}

4.3 查詢文件

查詢哪個索引下的哪個型別下的哪條資料

MySQL: 查詢哪個資料庫下的哪張表的哪條資料

GET /customer/external/1

_seq_no：併發控制欄位，每次更新就會 +1 ，可以用來做樂觀鎖
_primary_term：可用於做樂觀鎖，主分片重新分配，如重啟，就會變化
樂觀鎖使用：
更新前，先查詢出當前的資料，可以獲取 當前 _seq_no 以及當前 _primary_term
更新的時候，帶上 ?if_seq_no={當前 _seq_no }&if_primary_term={當前 _primary_term}

4.4 更新文件

4.1 POST 帶 _update 更新

POST /customer/external/1/_update

{
    # doc 的內容為文件的最新值
    "doc": {
    	"name": "John Doew"
    }
}

POST 帶 _update 更新，會對比原資料，如果更新的資料與原來一致，則 _version 、 _seq_no不會變化，且 result 的值為 noop，意思為沒有做任何操作，且可以給原有的文件中，新增一個屬性
{
    # 帶 _update doc不可省略， doc 的內容為文件的最新值
    "doc": {
    	"name": "John Doew",
    	"age": 20
    }
}
如上的請求也是可以成功的

4.2 其他更新

POST /customer/external/1

{
	"name": "John Doew"
}

PUT /customer/external/1

{
	"name": "John Doew"
}

以上兩種方式的更新，永遠為更新操作，不會對比原來的操作，每次請求 _version 、 _seq_no都在不斷疊加，且同帶 _updte 的 POST 請求一樣，可以為原有文件新增上新的屬性

4.5 刪除文件&索引

傳送 DELETE 請求，需要指定到具體的文件、索引
DELETE /customer/external/1
DELETE /customer

在 ElasticSearch 中，不提供刪除型別的方法

4.6 bulk 批量 API

必須傳送 POST 請求，在 PostMan 中無法模擬請求，這裡需要用到 kibana

POST /customer/external/_bulk 在 customer 索引下的 external 型別中批量執行

# 一個大括號代表一個操作，兩行為一個動作
{"index":{"_id": "1"}}	# 索引一個文件，文件的id為1
{"name": "John Doe"}	# 文件的內容
{"index":{"_id": "2"}}
{"name": "John Doe"}

took ：執行所花費的時間 errors ：是否有錯誤
items ：獨立統計每條命令的執行結果，如果中間有某條命令執行失敗，後面的命令也不會受到影響，且命令執行失敗的時候，不會跟MySQL一樣，回滾