Elasticsearch 之聚合分析入門
阿新 • • 發佈:2020-03-23
本文主要介紹 Elasticsearch 的聚合功能,介紹什麼是 Bucket 和 Metric 聚合,以及如何實現巢狀的聚合。
首先來看下聚合(Aggregation):
## 什麼是 Aggregation?
![](https://img-blog.csdnimg.cn/20200321230507375.png)
首先舉一個生活中的例子,這個是京東的搜尋介面,在搜尋框中輸入“華為”進行搜尋,就會得到如上介面,搜尋框就是我們常用的**搜尋**功能,而下面這些,比如分類、熱點、作業系統、CPU 型別等是根據 ES 的**聚合分析**獲得的相關結果。
看完上面這個例子,下面來看下聚合的定義:
ES 除了搜尋以外,還提供針對 ES 資料進行統計分析的功能,也就是聚合,它的特點是**實時性非常高**,所有的計算結果都是即時返回的,而 Hadoop 等大資料系統得到一個統計結果需要一天的時間,一般都是 T + 1 級別的。
通過聚合,我們會得到一個數據的概覽,是分析和總結全套的資料,而不是尋找單個文件,比如海淀區和東城區的客房數量,不同價格區間,可預訂的經濟型酒店和商務型酒店的數量,這樣可以幫助我們過濾搜尋的結果,這樣的優點是**效能高**,只需要一條語句,就可以從 ES 得到分析結果,無需再客戶端自己去實現分析邏輯。
在 ES 的聚合中主要一共分為四大類:
- **Bucket Aggregation**:分桶型別,一些列滿足特定條件的文件的集合
- **Metric Aggregation**:指標分析型別,一些數學運算,可以對文件欄位進行統計分析,比如計算最大值、最小值、平均值等
- **Pipeline Aggregation**:管道分析型別,對其他聚合結果進行二次聚合
- **Matrix Aggregation**:矩陣分析型別,支援對多個欄位的操作並提供一個結果矩陣
在以後的文章會對這些做詳細的講解,本文先來了解下什麼是 Bucket 和 Metric:
Bucket 簡單來說相當於 SQL 中的 GROUP,可以根據條件,把結果分成一個一個的組,那 Metric 相當於 SQL 中的 COUNT,可以去執行一系列的統計方法。
接下來看什麼是 Bucket Aggregation:
## Bucket Aggregation
![](https://img-blog.csdnimg.cn/20200322165432646.png)
Bucket 就是桶的意思,即**按照一定的規則將文件分配到不同的桶中,達到分類分析的目的**。如上圖所示,左邊有一堆文件,右邊有三個桶,每個桶有不同的規則,比如第一個桶的規則為價格小於 3000 的,第二個桶為價格大於等於 3000 小於 6000 的,最後一個桶的規則為價格大於 6000 的,然後不同的文件根據不同的價格分到不同的桶中,那麼我們就實現了分類。
有了 Bucket 聚合分析機制,我們就可以把公司員工以年齡方式進行區分,以地理位置的方式來區分客戶,以男性女性來區分演員等。
根據 Bucket 的分桶策略,常見的 Bucket 聚合分析如下:
- Terms:直接按照 `term` 來分桶,如果是 `text` 型別,則按照分詞後的結果分桶
- Range:指定數值的範圍來設定分桶規則
- Date Range:指定日期的範圍來設定分桶規則
- Histogram:直方圖,以固定間隔的策略來分割資料
- Date Histogram:針對日期的直方圖或者柱狀圖,是時序資料分析中常用的聚合分析型別
下面以 Terms 為例,讓我們動手實踐下:
![Bucket 聚合分析-Terms](https://img-blog.csdnimg.cn/20200322211248236.png)
這是一個檢視航班目的地的統計資訊的例子,通過指定關鍵詞為 `terms`,然後指明 term 欄位 `field` 為 `DestCountry`,下面我們請求下,檢視下請求結果:
![response](https://img-blog.csdnimg.cn/20200322214138671.png)
從結果中可以看到文件根據目的地分成了不同的桶,每個桶還包括 `doc_count`,這樣就可以很輕鬆知道 ES 儲存的航班資訊中,去往義大利、美國、中國等國家分別有多少架航班。
在簡單瞭解了 Bucket 聚合分析後,讓我們來看下 Metric 聚合分析:
## Metric Aggregation
Metric 是基於資料集計算的結果,除了支援在欄位上進行計算,同樣也支援在指令碼產生的結果之上進行計算。Metric 主要分為**單值分析和多值分析**,具體內容如下:
單值分析,只輸出一個分析結果:
- Min、Max、Avg、Sum
- Cardinality
其中,`Min、Max、Avg、Sum` 這些很容易理解,在這裡說一下 `Cardinality`,它是指不同數值的個數,相當於 SQL 中的 distinct。
多值分析,輸出多個分析結果:
- Stats、Extended Stats
- Percentiles、Percentile Ranks
- Top Hits
其中,`Stats` 是做多樣的資料分析,可以一次性得到最大值、最小值、平均值、中值等資料;`Extended Stats` 是對 `Stats` 的擴充套件,包含了更多的統計資料,比如方差、標準差等;`Percentiles` 和 `Percentile Ranks` 是百分位數的一個統計;`Top Hits` 一般用於分桶後獲取桶內最匹配的頂部文件列表,即詳情資料。
瞭解之後,讓我們實操起來,緊接著剛才檢視航班目的地的統計資訊的例子,如果還想知道機票的均價,最高最低價格,該怎麼做呢?這就需要用到 Metric 了:
![Metric 聚合分析](https://img-blog.csdnimg.cn/20200322213420421.png)
我們在請求中加入 `aggs`,其中 `avg_price` 為自己定義的名字,這個是為了方便在以後理解這個欄位返回值的含義,然後分別關鍵詞分別選擇 `avg、max、min` 來完成計算目的地不同的航班的機票均價、最高最低價格,這個請求的執行結果如下所示:
![response](https://img-blog.csdnimg.cn/20200322214000914.png)
從結果中可以看出,飛往義大利的航班一共有 2371 架,其中機票最高價格為 1195 元,最低價格為 100 元,平均價格為 586 元,很快就可以得到統計的一些結果。
另外,聚合分析還支援巢狀,那麼讓我們看下如果實現一個巢狀聚合分析:
![巢狀聚合分析](https://img-blog.csdnimg.cn/20200322215152267.png)
通過這個請求不但可以獲取到航班目的地的統計資訊,還可以得到航班抵達時的天氣狀況,執行結果如下所示:
![response](https://img-blog.csdnimg.cn/2020032222020386.png)
可以看出,在抵達義大利的航班中,抵達時的天氣有 424 次為晴天,417 次為下雨天等,所以通過巢狀的方式就可以很快得到更深層次的資料統計值。
# 總結
本文對 Elasticsearch 的聚合功能做了初步介紹,也學習 Bucket 和 Metric 聚合分析,在後續文章會對聚合功能做一個更加深入的講解。
下面是我總結的 Elasticsearch 聚合分析的思維導圖,在公眾號【**武培軒**】回覆【**es**】獲取思維導圖以及原始碼。
![Elasticsearch 聚合分析](https://img-blog.csdnimg.cn/20200322182759612.png)
> 參考文獻
>
> Elastic Stack從入門到實踐
>
> Elasticsearch核心技術與實戰
>
> https://www.elastic.co/guide/en/elasticsearch/reference/7.1/search-aggregati