乾貨 | 通透理解Elasticsearch聚合

阿新 • • 發佈：2018-12-22

使用Elasticsearch的過程中，除了全文檢索，或多或少會做統計操作，而做統計操作勢必會使用Elasticsearch聚合操作。
類似mysql中group by的terms聚合用的最多，但當遇到複雜的聚合操作時，往往會捉襟見肘、不知所措…
這也是社群中聚合操作幾乎每天都會被提問的原因。

本文基於官方文件，梳理出聚合的以下幾個核心問題，目的:將Elasticsearch的聚合結合實際場景說透。

1、Elasticsearch聚合最直觀展示

區別於倒排索引的key value的全文檢索，聚合兩個示例如下：
如下圖，是基於某特定分類的聚合統計結果。
在這裡插入圖片描述
如下圖：是基於月份的聚合統計結果。

2、Elasticsearch聚合定義

聚合有助於基於搜尋查詢提供聚合資料。它基於稱為聚合的簡單構建塊，可以組合以構建複雜的資料。
基本語法結構如下：

"aggregations" : {
    "<aggregation_name>" : {
        "<aggregation_type>" : {
            <aggregation_body>
        }
        [,"meta" : {  [<meta_data_body>] } ]?
        [,"aggregations" : { [<sub_aggregation>]+ } ]?
    }
    [,"<aggregation_name_2>" : { ... } ]*
}

3、Elasticsearch聚合分類

在這裡插入圖片描述

3.1 分類1：Metric聚合

基於一組文件進行聚合。所有的文件在一個檢索集合裡，文件被分成邏輯的分組。
類比Mysql中的： MIN(), MAX(), STDDEV(), SUM() 操作。

        單值Metric
                |
               v
SELECT AVG(price) FROM products


         多值Metric
          |          |
          v          v
SELECT MIN(price), MAX(price) FROM products
Metric聚合的DSL類比實現：
{
    "aggs":{
        "avg_price":{
            "avg":{
                "field":"price"
            }
        }
    }
}

Metric聚合操作對比:

Aggregation	Elasticsearch	MySQL
Avg	Yes	Yes
Cardinality——去重唯一值	Yes (Sample based)	Yes (Exact)——類似：distinct
Extended Stats	Yes	StdDev bounds missing
Geo Bounds	Yes	for future blog post
Geo Centroid	Yes	for future blog post
Max	Yes	Yes
Percentiles	Yes	Complex SQL or UDF
Percentile Ranks	Yes	Complex SQL or UDF
Scripted	Yes	No
Stats	Yes	Yes
Top Hits——很重要，易被忽視	Yes	Complex
Value Count	Yes	Yes

其中，Top hits子聚合用於返回分組中Top X匹配結果集，且支援通過source過濾選定欄位值。

分類2：Bucketing聚合

基於檢索構成了邏輯文件組，滿足特定規則的文件放置到一個桶裡，每一個桶關聯一個key。
類比Mysql中的group by操作，
Mysql使用舉例：

           基於size 分桶 ...、
SELECT size COUNT(*) FROM products GROUP BY size 

+----------------------+
| size     |  COUNT(*) |
+----------------------+ 
| S        |   123     | <--- set of rows with size = S
| M        |   456     |
| ...      |  ...      |

bucket聚合的DSL類比實現：

{
  "query": {
    "match": {
      "title": "Beach"
    }
  },
  "aggs": {
    "by_size": {
      "terms": {
        "field": "size"
      }
    },
    "by_material": {
      "terms": {
        "field": "material"
      }
    }
  }
}

Bucketing聚合對比

Aggregation	Elasticsearch	MySQL
Childen——父子文件	Yes	for future blog post
Date Histogram——基於時間分桶	Yes	Complex
Date Range	Yes	Complex
Filter	Yes	n/a (yes)
Filters	Yes	n/a (yes)
Geo Distance	Yes	for future blog post
GeoHash grid	Yes	for future blog post
Global	Yes	n/a (yes)
Histogram	Yes	Complex
IPv4 Range	Yes	Complex
Missing	Yes	Yes
Nested	Yes	for future blog post
Range	Yes	Complex
Reverse Nested	Yes	for future blog post
Sampler	Yes	Complex
Significant Terms	Yes	No
Terms——最常用	Yes	Yes

分類3：Pipeline聚合

對聚合的結果而不是原始資料集進行操作。
想象一下，你有一個日間交易的網上商店，想要了解所有產品的按照庫存日期分組的平均價格。
在SQL中你可以寫：

SELECT in_stock_since, AVG(price) FROM products GROUP BY in_stock_since。

ES使用舉例：
以下Demo實現更復雜，按月統計銷售額，並統計出月銷售額>200的資訊。
下一節詳細給出DSL，不再重複。

分類4：Matrix聚合

ES6.4官網釋義：此功能是實驗性的，可在將來的版本中完全更改或刪除。

3、Elasticsearch聚合完整舉例

3.1 步驟1：動態Mapping，匯入完整資料

POST _bulk
{"index":{"_index":"cars","_type":"doc","_id":"1"}}
{"name":"bmw","date":"2017-06-01", "color":"red", "price":30000}
{"index":{"_index":"cars","_type":"doc","_id":"2"}}
{"name":"bmw","date":"2017-06-30", "color":"blue", "price":50000}
{"index":{"_index":"cars","_type":"doc","_id":"3"}}
{"name":"bmw","date":"2017-08-11", "color":"red", "price":90000}
{"index":{"_index":"cars","_type":"doc","_id":"4"}}
{"name":"ford","date":"2017-07-15", "color":"red", "price":20000}
{"index":{"_index":"cars","_type":"doc","_id":"5"}}
{"name":"ford","date":"2017-07-01", "color":"blue", "price":40000}
{"index":{"_index":"cars","_type":"doc","_id":"6"}}
{"name":"bmw","date":"2017-08-01", "color":"green", "price":10000}
{"index":{"_index":"cars","_type":"doc","_id":"7"}}
{"name":"jeep","date":"2017-07-08", "color":"red", "price":110000}
{"index":{"_index":"cars","_type":"doc","_id":"8"}}
{"name":"jeep","date":"2017-08-25", "color":"red", "price":230000}

3.2 步驟2：確認Mapping

GET cars/_mapping

3.3 步驟3：Matric聚合實現

求車的平均價錢。

POST cars/_search
{
  "size": 0,
  "aggs": {
    "avg_grade": {
      "avg": {
        "field": "price"
      }
    }
  }
}

3.4 步驟4：bucket聚合與子聚合實現

按照車品牌分組，組間按照車顏色再二次分組。

POST cars/_search
{
  "size": 0,
  "aggs": {
    "name_aggs": {
      "terms": {
        "field": "name.keyword"
      },
      "aggs": {
        "color_aggs": {
          "terms": {
            "field": "color.keyword"
          }
        }
      }
    }
  }
}

3.5 步驟5：Pipeline聚合實現

按月統計銷售額，並統計出總銷售額大於200000的月份資訊。

POST /cars/_search
{
  "size": 0,
  "aggs": {
    "sales_per_month": {
      "date_histogram": {
        "field": "date",
        "interval": "month"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "price"
          }
        },
        "sales_bucket_filter": {
          "bucket_selector": {
            "buckets_path": {
              "totalSales": "total_sales"
            },
            "script": "params.totalSales > 200000"
          }
        }
      }
    }
  }
}

4、Elasticsearch聚合使用指南

認知前提：知道Elasticsearch聚合遠比Mysql中種類要多，可實現的功能點要多。
遇到聚合問題，基於4個分類，查詢對應的官網API資訊。
以最常見場景為例：

確定是否是分組group by 操作，如果是，使用bucket聚合中的terms聚合實現；
確定是否是按照時間分組操作，如果是，使用bucket聚合中date_histogram的聚合實現;
確定是否是分組，組間再分組操作，如果是，使用bucket聚合中terms聚合內部再terms或者內部top_hits子聚合實現;
確定是否是求最大值、最小值、平均值等，如果是,使用Metric聚合對應的Max, Min,AVG等聚合實現；
確定是否是基於聚合的結果條件進行判定後取結果，如果是，使用pipline聚合結合其他聚合綜合實現；

多嘗試，多在kibana的 dev tool部分多驗證。

這裡寫圖片描述
打造Elasticsearch基礎、進階、實戰第一公眾號！

乾貨 | 通透理解Elasticsearch聚合

使用Elasticsearch的過程中，除了全文檢索，或多或少會做統計操作，而做統計操作勢必會使用Elasticsearch聚合操作。類似mysql中group by的terms聚合用的最多，但當遇到複雜的聚合操作時，往往會捉襟見肘、不知所措… 這也是社群中聚

一篇文章通透理解序列號實現原理

1.序列號的本質序列號等價於註冊碼，是軟體發行商的一種維權手段，也就是正版軟體的一個身份證。本質：防止盜版、按功能收費等。目前，商用軟體和共享軟體絕大部份都是採用註冊碼授權的方式來保證軟體本身不被盜用，以保證自身的利益。儘管很多常用的許多軟體系統的某些版本已經被別人

50.乾貨 |《深入理解Elasticsearch》讀書筆記

題記由於之前已經梳理過Elasticsearch基礎概念且在專案中實戰過Elasticsearch的增刪改查、聚類、排序等相關操作，對ES算是有了一定的認知。但是，仍然對於一些底層的原理認知模糊，特買來《深入理解Elasticsearch》過了一遍，將書中一些細節知識點結合官

乾貨 |《深入理解Elasticsearch》讀書筆記

題記由於之前已經梳理過Elasticsearch基礎概念且在專案中實戰過Elasticsearch的增刪改查、聚類、排序等相關操作，對ES算是有了一定的認知。但是，仍然對於一些底層的原理認知模糊，特買來《深入理解Elasticsearch》過了一遍，將書

Elasticsearch聚合之 Terms

exc 定性方式 earch des 執行 stc 默認 gen 本篇著重講解的terms聚合，它是按照某個字段中的值來分類：比如性別有男、女，就會創建兩個桶，分別存放男女的信息。默認會搜集doc_count的信息，即記錄有多少男生，有多少女生，然後返回給客戶端，這樣

理解jmeter聚合報告

jmeter 性能測試 Aggregate Report是 JMeter 常用的一個 Listener，中文被翻譯為“聚合報告”。今天再次有同行問到這個報告中的各項數據表示什麽意思，順便在這裏公布一下，以備大家查閱。如果大家都是做Web應用的性能測試，例如只有一個登錄的請求，那麽在Aggregate

Elasticsearch聚合初探——metric篇

方式 top .... time 時也 att 求和還需 upper 前言 ES中的聚合被分為兩大類：Metric度量和bucket桶（原諒我英語差，找不到合適的詞語.....就用單詞來說吧！）。說的通俗點，metric很像SQL中的avg、max、min等方法，而buc

elasticsearch--聚合中桶（Buckets）和指標（Metrics）的概念

就會只有一個 img max() earch 執行都是 access buck 寫在前面的話：讀書破萬卷，編碼如有神--------------------------------------------------------------------主要內容包括：

ElasticSearch 聚合函數

metrics ted pop col 最小函數 val max() curl 一、簡單聚合桶：簡單來說就是滿足特定條件的文檔的集合。指標：大多數指標是簡單的數學運算（例如最小值、平均值、最大值，還有匯總），這些是通過文檔的值來計算。桶

Elasticsearch教程 Elasticsearch查詢語法 Elasticsearch權威指南深入理解Elasticsearch

廣度 int ldd 流量讀寫性能 word har 優先廣度優先課程大綱第1節結構化搜索_IT技術論壇案例背景介紹 9分鐘第2節結構化搜索_在案例中實戰使用term filter來搜索數據 20分鐘第3節結構化搜索_filter執行原理深度剖析(bitset機

ElasticSearch 聚合嵌套查詢

文本 gre ext range 讓我 ESS 學習講解 error 第一個分析需求：計算每個tag下的商品數量 GET /ecommerce/product/_search{ "aggs": { "group_by_tags": { "terms":

《深入理解Elasticsearch》README

earch cnblogs child 架構 tail last recovery 故障處理深入理解書目《深入理解ElasticSearch》拉斐爾·酷奇，馬雷克·羅戈任斯基【著】張世武，余洪森，商旦【譯】機械工業出版社，2016.1 本系列包括以下8篇筆記

ElasticSearch聚合分析

發生 ucc 語句 time 視頻 HERE selector pip 實際應用聚合用於分析查詢結果集的統計指標，我們以觀看日誌分析為例，介紹各種常用的ElasticSearch聚合操作。目錄：查詢用戶觀看視頻數和觀看時長聚合分頁器查詢視頻uv 單個視頻uv

elasticsearch聚合操作——本質就是針對搜索後的結果使用桶bucket（允許嵌套）進行group by，統計下分組結果，包括min/max/avg

per 找到只需要語句所有 smi 即使 log 以及分析 Elasticsearch有一個功能叫做聚合(aggregations)，它允許你在數據上生成復雜的分析統計。它很像SQL中的GROUP BY但是功能更強大。舉個例子，讓我們找到所有職員中最大的共同點（興

ElasticSearch聚合

圖片 table 擴展處理方式 max status 由於 ive cat 前言說完了ES的索引與檢索，接著再介紹一個ES高級功能API – 聚合(Aggregations)，聚合功能為ES註入了統計分析的血統，使用戶在面對大數據提取統計指標時變得遊刃有余。同樣的工作，

Elasticsearch聚合優化 | 聚合速度提升5倍

question 線性方式文章 arc 百萬 hint desc quest https://blog.csdn.net/laoyang360/article/details/79253294 1、聚合為什麽慢？大多數時候對單個字段的聚合查詢還是非常快的，但是當需

ElasticSearch - 聚合 aggs

聚合概念 ElasticSearch除了致力於搜尋之外，也提供了聚合實時分析資料的功能如果把搜尋比喻為大海撈針(從海量的文件中找出符合條件的那一個)，那麼聚合就是去分析大海中的針們的特性，像是在大海里有多少針？針的平

Elasticsearch聚合限制記憶體使用

限制記憶體使用通常為了讓聚合(或者任何需要訪問欄位值的請求)能夠快點，訪問fielddata一定會快點，這就是為什麼載入到記憶體的原因。但是載入太多的資料到記憶體會導致垃圾回收(gc)緩慢，因為JVM試著發現堆裡面的額外空間，甚至導致OutOfMemory異常。最讓你吃

帶你通透Netty原理之架構解析

Netty 是一個非同步事件驅動的網路應用程式框架，用於快速開發可維護的高效能協議伺服器和客戶端。給大家推薦一個程式設計師學習扣群：854818273。群裡有分享的視訊，還有思維導圖群公告有視訊，都是乾貨的，

深入理解ElasticSearch（六）排序與相關性

排序與相關性預設情況下，返回的結果是按照相關性進行排序的——最相關的文件排在最前。在本章的後面部分，我們會解釋相關性意味著什麼以及它是如何計算的，不過讓我們首先看看 sort 引數以及如何使用它。 1、排序為了按照相關性來排序，需要將相關性表示為一個數值

乾貨 | 通透理解Elasticsearch聚合

1、Elasticsearch聚合最直觀展示

2、Elasticsearch聚合定義

3、Elasticsearch聚合分類

3.1 分類1：Metric聚合

分類2：Bucketing聚合

分類3：Pipeline聚合

分類4：Matrix聚合

3、Elasticsearch聚合完整舉例

3.1 步驟1：動態Mapping，匯入完整資料

3.2 步驟2：確認Mapping

3.3 步驟3：Matric聚合實現

3.4 步驟4：bucket聚合與子聚合實現

3.5 步驟5：Pipeline聚合實現

4、Elasticsearch聚合使用指南

相關推薦