ElasticSearch記錄（0）詳細梳理

阿新 • • 發佈：2019-02-09

高可用性可靠的 agg 測試 ike 容錯 .com 方便 pro

轉自：https://blog.csdn.net/makang110/article/details/80596017

題記：

Elasticsearch研究有一段時間了，現特將Elasticsearch相關核心知識、原理從初學者認知、學習的角度，從以下9個方面進行詳細梳理。歡迎討論……

0. 帶著問題上路——ES是如何產生的？

（1）思考：大規模數據如何檢索？

如：當系統數據量上了10億、100億條的時候，我們在做系統架構的時候通常會從以下角度去考慮問題：
1）用什麽數據庫好？(mysql、sybase、oracle、達夢、神通、mongodb、hbase…)

2）如何解決單點故障；(lvs、F5、A10、Zookeep、MQ)
3）如何保證數據安全性；(熱備、冷備、異地多活)
4）如何解決檢索難題；(數據庫代理中間件：mysql-proxy、Cobar、MaxScale等;)
5）如何解決統計分析問題；(離線、近實時)

（2）傳統數據庫的應對解決方案

對於關系型數據，我們通常采用以下或類似架構去解決查詢瓶頸和寫入瓶頸：
解決要點：
1）通過主從備份解決數據安全性問題；
2）通過數據庫代理中間件心跳監測，解決單點故障問題；
3）通過代理中間件將查詢語句分發到各個slave節點進行查詢，並匯總結果
技術分享圖片

（3）非關系型數據庫的解決方案

對於Nosql數據庫，以mongodb為例，其它原理類似：

解決要點：
1）通過副本備份保證數據安全性；
2）通過節點競選機制解決單點問題；
3）先從配置庫檢索分片信息，然後將請求分發到各個節點，最後由路由節點合並匯總結果
技術分享圖片

另辟蹊徑——完全把數據放入內存怎麽樣？

我們知道，完全把數據放在內存中是不可靠的，實際上也不太現實，當我們的數據達到PB級別時，按照每個節點96G內存計算，在內存完全裝滿的數據情況下，我們需要的機器是：1PB=1024T=1048576G
節點數=1048576/96=10922個
實際上，考慮到數據備份，節點數往往在2.5萬臺左右。成本巨大決定了其不現實！

從前面討論我們了解到，把數據放在內存也好，不放在內存也好，都不能完完全全解決問題。

全部放在內存速度問題是解決了，但成本問題上來了。
為解決以上問題，從源頭著手分析，通常會從以下方式來尋找方法：
1、存儲數據時按有序存儲；
2、將數據和索引分離；
3、壓縮數據；
這就引出了Elasticsearch。

1. ES 基礎一網打盡

1.1 ES定義

ES=elaticsearch簡寫， Elasticsearch是一個開源的高擴展的分布式全文檢索引擎，它可以近乎實時的存儲、檢索數據；本身擴展性很好，可以擴展到上百臺服務器，處理PB級別的數據。
Elasticsearch也使用Java開發並使用Lucene作為其核心來實現所有索引和搜索的功能，但是它的目的是通過簡單的RESTful API來隱藏Lucene的復雜性，從而讓全文搜索變得簡單。

1.2 Lucene與ES關系？

1）Lucene只是一個庫。想要使用它，你必須使用Java來作為開發語言並將其直接集成到你的應用中，更糟糕的是，Lucene非常復雜，你需要深入了解檢索的相關知識來理解它是如何工作的。

2）Elasticsearch也使用Java開發並使用Lucene作為其核心來實現所有索引和搜索的功能，但是它的目的是通過簡單的RESTful API來隱藏Lucene的復雜性，從而讓全文搜索變得簡單。

1.3 ES主要解決問題：

1）檢索相關數據；
2）返回統計結果；
3）速度要快。

1.4 ES工作原理

當ElasticSearch的節點啟動後，它會利用多播(multicast)(或者單播，如果用戶更改了配置)尋找集群中的其它節點，並與之建立連接。這個過程如下圖所示：
技術分享圖片

1.5 ES核心概念

1）Cluster：集群。

ES可以作為一個獨立的單個搜索服務器。不過，為了處理大型數據集，實現容錯和高可用性，ES可以運行在許多互相合作的服務器上。這些服務器的集合稱為集群。

2）Node：節點。

形成集群的每個服務器稱為節點。

3）Shard：分片。

當有大量的文檔時，由於內存的限制、磁盤處理能力不足、無法足夠快的響應客戶端的請求等，一個節點可能不夠。這種情況下，數據可以分為較小的分片。每個分片放到不同的服務器上。
當你查詢的索引分布在多個分片上時，ES會把查詢發送給每個相關的分片，並將結果組合在一起，而應用程序並不知道分片的存在。即：這個過程對用戶來說是透明的。

4）Replia：副本。

為提高查詢吞吐量或實現高可用性，可以使用分片副本。
副本是一個分片的精確復制，每個分片可以有零個或多個副本。ES中可以有許多相同的分片，其中之一被選擇更改索引操作，這種特殊的分片稱為主分片。
當主分片丟失時，如：該分片所在的數據不可用時，集群將副本提升為新的主分片。

5）全文檢索。

全文檢索就是對一篇文章進行索引，可以根據關鍵字搜索，類似於mysql裏的like語句。
全文索引就是把內容根據詞的意義進行分詞，然後分別創建索引，例如”你們的激情是因為什麽事情來的” 可能會被分詞成：“你們“，”激情“，“什麽事情“，”來“ 等token，這樣當你搜索“你們” 或者 “激情” 都會把這句搜出來。

1.6 ES數據架構的主要概念（與關系數據庫Mysql對比）

技術分享圖片
（1）關系型數據庫中的數據庫（DataBase），等價於ES中的索引（Index）
（2）一個數據庫下面有N張表（Table），等價於1個索引Index下面有N多類型（Type），
（3）一個數據庫表（Table）下的數據由多行（ROW）多列（column，屬性）組成，等價於1個Type由多個文檔（Document）和多Field組成。
（4）在一個關系型數據庫裏面，schema定義了表、每個表的字段，還有表和字段之間的關系。與之對應的，在ES中：Mapping定義索引下的Type的字段處理規則，即索引如何建立、索引類型、是否保存原始索引JSON文檔、是否壓縮原始JSON文檔、是否需要分詞處理、如何進行分詞處理等。
（5）在數據庫中的增insert、刪delete、改update、查search操作等價於ES中的增PUT/POST、刪Delete、改_update、查GET.

1.7 ELK是什麽？

ELK=elasticsearch+Logstash+kibana
elasticsearch：後臺分布式存儲以及全文檢索
logstash: 日誌加工、“搬運工”
kibana：數據可視化展示。
ELK架構為數據分布式存儲、可視化查詢和日誌解析創建了一個功能強大的管理鏈。三者相互配合，取長補短，共同完成分布式大數據處理工作。

2. ES特點和優勢

1）分布式實時文件存儲，可將每一個字段存入索引，使其可以被檢索到。
2）實時分析的分布式搜索引擎。
分布式：索引分拆成多個分片，每個分片可有零個或多個副本。集群中的每個數據節點都可承載一個或多個分片，並且協調和處理各種操作；
負載再平衡和路由在大多數情況下自動完成。
3）可以擴展到上百臺服務器，處理PB級別的結構化或非結構化數據。也可以運行在單臺PC上（已測試）
4）支持插件機制，分詞插件、同步插件、Hadoop插件、可視化插件等。

3、ES性能

3.1 性能結果展示

（1）硬件配置：
CPU 16核 AuthenticAMD
內存總量：32GB
硬盤總量：500GB 非SSD

（2）在上述硬件指標的基礎上測試性能如下：
1）平均索引吞吐量： 12307docs/s（每個文檔大小：40B/docs）
2）平均CPU使用率： 887.7%（16核，平均每核：55.48%）
3）構建索引大小： 3.30111 GB
4）總寫入量： 20.2123 GB
5）測試總耗時： 28m 54s.

3.2 性能esrally工具（推薦）

使用參考：http://blog.csdn.net/laoyang360/article/details/52155481

4、為什麽要用ES？

4.1 ES國內外使用優秀案例

1） 2013年初，GitHub拋棄了Solr，采取ElasticSearch 來做PB級的搜索。 “GitHub使用ElasticSearch搜索20TB的數據，包括13億文件和1300億行代碼”。

2）維基百科：啟動以elasticsearch為基礎的核心搜索架構。
3）SoundCloud：“SoundCloud使用ElasticSearch為1.8億用戶提供即時而精準的音樂搜索服務”。
4）百度：百度目前廣泛使用ElasticSearch作為文本數據分析，采集百度所有服務器上的各類指標數據及用戶自定義數據，通過對各種數據進行多維分析展示，輔助定位分析實例異常或業務層面異常。目前覆蓋百度內部20多個業務線（包括casio、雲分析、網盟、預測、文庫、直達號、錢包、風控等），單集群最大100臺機器，200個ES節點，每天導入30TB+數據。

4.2 我們也需要

實際項目開發實戰中，幾乎每個系統都會有一個搜索的功能，當搜索做到一定程度時，維護和擴展起來難度就會慢慢變大，所以很多公司都會把搜索單獨獨立出一個模塊，用ElasticSearch等來實現。

近年ElasticSearch發展迅猛，已經超越了其最初的純搜索引擎的角色，現在已經增加了數據聚合分析（aggregation）和可視化的特性，如果你有數百萬的文檔需要通過關鍵詞進行定位時，ElasticSearch肯定是最佳選擇。當然，如果你的文檔是JSON的，你也可以把ElasticSearch當作一種“NoSQL數據庫”，應用ElasticSearch數據聚合分析（aggregation）的特性，針對數據進行多維度的分析。

【知乎：熱酷架構師潘飛】ES在某些場景下替代傳統DB
個人以為Elasticsearch作為內部存儲來說還是不錯的，效率也基本能夠滿足，在某些方面替代傳統DB也是可以的，前提是你的業務不對操作的事性務有特殊要求；而權限管理也不用那麽細，因為ES的權限這塊還不完善。
由於我們對ES的應用場景僅僅是在於對某段時間內的數據聚合操作，沒有大量的單文檔請求（比如通過userid來找到一個用戶的文檔，類似於NoSQL的應用場景），所以能否替代NoSQL還需要各位自己的測試。
如果讓我選擇的話，我會嘗試使用ES來替代傳統的NoSQL，因為它的橫向擴展機制太方便了。

5. ES的應用場景是怎樣的？

通常我們面臨問題有兩個：

1）新系統開發嘗試使用ES作為存儲和檢索服務器；
2）現有系統升級需要支持全文檢索服務，需要使用ES。
以上兩種架構的使用，以下鏈接進行詳細闡述。
http://blog.csdn.net/laoyang360/article/details/52227541

一線公司ES使用場景：

1）新浪ES 如何分析處理32億條實時日誌 http://dockone.io/article/505
2）阿裏ES 構建挖財自己的日誌采集和分析體系 http://afoo.me/columns/tec/logging-platform-spec.html
3）有贊ES 業務日誌處理 http://tech.youzan.com/you-zan-tong-ri-zhi-ping-tai-chu-tan/
4）ES實現站內搜索 http://www.wtoutiao.com/p/13bkqiZ.html

6. 如何部署ES？

6.1 ES部署（無需安裝）

1）零配置，開箱即用
2）沒有繁瑣的安裝配置
3）java版本要求：最低1.7
我使用的1.8
[root@laoyang config_lhy]# echo $JAVA_HOME
/opt/jdk1.8.0_91
4）下載地址：
https://download.elastic.co/elasticsearch/release/org/elasticsearch/distribution/zip/elasticsearch/2.3.5/elasticsearch-2.3.5.zip
5）啟動
cd /usr/local/elasticsearch-2.3.5
./bin/elasticsearch
bin/elasticsearch -d(後臺運行)

6.2 ES必要的插件

必要的Head、kibana、IK（中文分詞）、graph等插件的詳細安裝和使用。
http://blog.csdn.net/column/details/deep-elasticsearch.html

6.3 ES windows下一鍵安裝

自寫bat腳本實現windows下一鍵安裝。
1）一鍵安裝ES及必要插件（head、kibana、IK、logstash等）
2）安裝後以服務形式運行ES。
3）比自己摸索安裝節省至少2小時時間，效率非常高。
腳本說明：
http://blog.csdn.net/laoyang360/article/details/51900235

7. ES對外接口（開發人員關註）

1）JAVA API接口

http://www.ibm.com/developerworks/library/j-use-elasticsearch-java-apps/index.html

2）RESTful API接口

常見的增、刪、改、查操作實現：
http://blog.csdn.net/laoyang360/article/details/51931981

8.ES遇到問題怎麽辦？

1）國外：https://discuss.elastic.co/
2）國內：http://elasticsearch.cn/

參考：

[1] http://www.tuicool.com/articles/7fueUbb
[2] http://zhaoyanblog.com/archives/495.html
[3]《Elasticsearch服務器開發》
[4]《實戰Elasticsearch、Logstash、Kibana》
[5]《Elasticsearch In Action》
[6]《某ES大牛PPT》

ElasticSearch記錄（0）詳細梳理

高可用性可靠的 agg 測試 ike 容錯 .com 方便 pro 轉自：https://blog.csdn.net/makang110/article/details/80596017 題記： Elasticsearch研究有一段時間了，現特將Elasticsear

ElasticSearch記錄（0）詳細梳理

題記：

0. 帶著問題上路——ES是如何產生的？

（1）思考：大規模數據如何檢索？

（2）傳統數據庫的應對解決方案

（3）非關系型數據庫的解決方案

另辟蹊徑——完全把數據放入內存怎麽樣？

1. ES 基礎一網打盡

1.1 ES定義

1.2 Lucene與ES關系？

1.3 ES主要解決問題：

1.4 ES工作原理

1.5 ES核心概念

1）Cluster：集群。

2）Node：節點。

3）Shard：分片。

4）Replia：副本。

5）全文檢索。

1.6 ES數據架構的主要概念（與關系數據庫Mysql對比）

1.7 ELK是什麽？

2. ES特點和優勢

3、ES性能

3.1 性能結果展示

3.2 性能esrally工具（推薦）

4、為什麽要用ES？

4.1 ES國內外使用優秀案例

4.2 我們也需要

5. ES的應用場景是怎樣的？

通常我們面臨問題有兩個：

一線公司ES使用場景：

6. 如何部署ES？

6.1 ES部署（無需安裝）

6.2 ES必要的插件

6.3 ES windows下一鍵安裝

7. ES對外接口（開發人員關註）

1）JAVA API接口

2）RESTful API接口

8.ES遇到問題怎麽辦？

參考：

相關推薦