1. 程式人生 > >ES aggregation詳解

ES aggregation詳解

aggregation分類

aggregations —— 聚合,提供了一種基於查詢條件來對資料進行分桶、計算的方法。有點類似於 SQL 中的 group by 再加一些函式方法的操作。

聚合可以巢狀,由此可以組成複雜的操作(Bucketing聚合可以包含sub-aggregation)。

聚合整體上可以分為 3 類:

1. Bucketing:桶分聚合:

  • 此類聚合執行的是對文件分組的操作,把滿足相關特性的文件分到一個桶裡,即桶分。輸出結果往往是一個個包含多個文件的桶。
  • 此類聚合會有一個關鍵字(field、script),以及一些桶分(分組)的判斷條件。執行聚合操作時候,文件會判斷每一個分組條件,如果滿足某個,該文件就會被分為該組(fall in)。

2. Metric:指標聚合:

  • 此類聚合是對文件進行一些權值計算(比如求所有文件某個欄位的max值)。輸出結果往往是文件的權值,相當於為文件添加了一些統計資訊。
  • 此類聚合基於特定欄位(field)或指令碼值(generated using scripts),計算聚合中文件的權值。

3. Pipeline:管道聚合:

  • 對其它聚合操作的輸出及其關聯指標進行聚合。
  • 此類聚合的作用物件往往是桶,而不是文件,是一種後期對每個分桶的一些計算操作。

應用場景

對於 3 中聚合,常見的應用場景如下流程:

buckets 聚合對文件進行必要的歸類(桶分) ——> metric 聚合對每個桶進行一些額外的資訊計算(如:max) ——> pipeline 聚合針對所有桶做一些桶層面的統計或計算應用示例:




{
    "aggs" : {
        "sales_per_month" : {
            "date_histogram" : {              // bucket 聚合,按照月份進行分桶,每個月的歸屬一個桶
                "field" : "date",
                "interval" : "month"
            },
            "aggs": {
                "sales": {
                    "sum": {                       // metric 聚合,對每個桶類的 price 求和,即每月的銷售額
                        "field": "price"
                    }
                }
            }
        },
        "max_monthly_sales": {
            "max_bucket": {                 // pipeline 聚合,求所有桶中銷售額 sales 最大的值
                "buckets_path": "sales_per_month>sales" 
            }
        }
    }
}


aggregation結構

聚合可以是父子(巢狀)關係聚合,buckets 聚合作為父,metric 聚合作為子。

聚合也可以是兄弟關係聚合,buckets 聚合在前,pipeline 聚合在後。

結構如下:


"aggregations" : {                                //定義聚合物件,也可用 "aggs"
      "<aggregation_name>" : {                    //聚合的名稱,使用者自定義
          "<aggregation_type>" : {                //聚合型別,比如 "histogram"
              <aggregation_body>                  //每個聚合型別都有其自己的結構定義
          }
          [,"meta" : {  [<meta_data_body>] } ]?
          [,"aggregations" : { [<sub_aggregation>]+ } ]?    //可以定義多個 sub-aggregation
      }
      [,"<aggregation_name_2>" : { ... } ]*       //定義額外的多個平級 aggregation,只有 Bucketing 型別才有意義
}

2 metrics aggregations

概述

權值聚合型別從需要聚合的文件中取一個值(value)來計算文件的相應權值(比如該值在這些文件中的max、sum等)。

用於計算的值(value)可以是文件的欄位(field),也可以是指令碼(script)生成的值。

數值權值聚合是特殊的權值聚合型別,因為它的輸出權值也是數字。

數值權值聚合(注意分類只針對數值權值聚合,非數值的無此分類)輸出單個權值的,叫做 single-value numeric metrics,其它生成多個權值(比如:stats)的被叫做 multi-value numeric metrics。

單值和多值數字權值聚合,在它們作為一些 Bucket 聚合的直接子聚合的時候會有明顯區別。

Avg Aggregation(single-value numeric metrics)

均值聚合——基於文件的某個值,計算該值在聚合文件中的均值。

用於計算的值可以是特定的數值型欄位,也可以通過指令碼計算而來。

配置引數

  • field:用於計算的欄位
  • script:由指令碼生成用來計算的 value
  • missing:文件預設欄位時的預設值

{
    "aggs" : {
        "avg_grade" : { "avg" : { "field" : "grade" } }    //計算欄位 grade 在文件中的平均值
    }
}
//輸出
{
    ...

    "aggregations": {
        "avg_grade": {
            "value": 75
        }
    }
}


Cardinality Aggregation(single-value)

基數聚合——基於文件的某個值,計算文件非重複的個數(去重計數)。

用於計算的值可以是特定的欄位,也可以通過指令碼計算而來。

配置引數

  • field:用於計算的欄位
  • script:由指令碼生成用來計算的 value
  • precision_threshold:
  • missing:文件預設欄位時的預設值

{
    "aggs" : {
        "author_count" : {
            "cardinality" : {
                "field" : "author"  //count the unique authors that match a query
            }
        }
    }
}


stats aggregation(multi-value)

統計聚合——基於文件的某個值,計算出一些統計資訊(min、max、sum、count、avg)。

用於計算的值可以是特定的數值型欄位,也可以通過指令碼計算而來。

配置引數

  • field:用於計算的欄位
  • script:由指令碼生成用來計算的 value
  • missing:文件預設欄位時的預設值

{
    "aggs" : {
        "grades_stats" : { "stats" : { "field" : "grade" } }
    }
}
//輸出
{
    ...
    "aggregations": {
        "grades_stats": {
            "count": 6,
            "min": 60,
            "max": 98,
            "avg": 78.5,
            "sum": 471
        }
    }
}


Extended Stats Aggregation(multi-value)

擴充套件統計聚合——基於文件的某個值,計算出一些統計資訊(比普通的stats聚合多了sum_of_squares、variance、std_deviationstd_deviation_bounds)。

用於計算的值可以是特定的數值型欄位,也可以通過指令碼計算而來。

配置引數

  • field:用於計算的欄位
  • script:由指令碼生成用來計算的 value
  • missing:文件預設欄位時的預設值
  • sigma:標準差界限

{
    ...

    "aggregations": {
        "grade_stats": {
           "count": 9,
           "min": 72,
           "max": 99,
           "avg": 86,
           "sum": 774,
           //輸出比 stats 聚合多了一些值
           "sum_of_squares": 67028,
           "variance": 51.55555555555556,
           "std_deviation": 7.180219742846005,
           "std_deviation_bounds": {
            "upper": 100.36043948569201,
            "lower": 71.63956051430799
           }
        }
    }
}


Geo Bounds Aggregation

地理邊界聚合——基於文件的某個欄位(geo-point型別欄位),計算出該欄位所有地理座標點的邊界(左上角/右下角座標點)。

配置引數

  • field:用於計算的欄位
  • wrap_longitude:是否允許地理邊界與國際日界線存在重疊

{
    "query" : {
        "match" : { "business_type" : "shop" }
    },
    "aggs" : {
        "viewport" : {
            "geo_bounds" : {
                "field" : "location", 
                "wrap_longitude" : true 
            }
        }
    }
}
//輸出
{
    ...
    "aggregations": {
        "viewport": {
            "bounds": {
                "top_left": {                    //左上角經緯度
                    "lat": 80.45,
                    "lon": -160.22
                },
                "bottom_right": {               //右下角經緯度
                    "lat": 40.65,
                    "lon": 42.57
                }
            }
        }
    }
}


Geo Centroid Aggregation

地理重心聚合——基於文件的某個欄位(geo-point型別欄位),計算所有座標的加權重心。

配置引數

  • field:用於計算的欄位(geo-point型別)

{
    "query" : {
        "match" : { "crime" : "burglary" }
    },
    "aggs" : {
        "centroid" : {
            "geo_centroid" : {
                "field" : "location" 
            }
        }
    }
}
//輸出
{
    ...
    "aggregations": {
        "centroid": {
            "location": {      //重心經緯度
                "lat": 80.45,
                "lon": -160.22
            }
        }
    }
}


Max Aggregation(single)

最大值聚合——基於文件的某個值,求該值在聚合文件中的最大值。

用於計算的值可以是特定的數值型欄位,也可以通過指令碼計算而來。

配置引數

  • field:用於計算的欄位
  • script:由指令碼生成用來計算的 value
  • missing:文件預設欄位時的預設值

Min Aggregation(single)

最小值聚合——基於文件的某個值,求該值在聚合文件中的最小值。

用於計算的值可以是特定的數值型欄位,也可以通過指令碼計算而來。

配置引數

  • field:用於計算的欄位
  • script:由指令碼生成用來計算的 value
  • missing:文件預設欄位時的預設值

Sum Aggregation(single-value)

求和聚合——基於文件的某個值,求該值在聚合文件中的統計和。

用於計算的值可以是特定的數值型欄位,也可以通過指令碼計算而來。

配置引數

  • field:用於計算的欄位
  • script:由指令碼生成用來計算的 value
  • missing:文件預設欄位時的預設值

//最大值,field
{
    "aggs" : {
        "max_price" : { "max" : { "field" : "price" } }      // field 
    }
}
//最小值,script
{
    "aggs" : {
        "min_price" : {
            "min" : {
                "script" : {                            //script 計算 value
                    "file": "my_script",
                    "params": {
                        "field": "price"
                    }
                }
            }
        }
    }
}
//總和,value script 
{
    "aggs" : {
        ...
        "aggs" : {
            "daytime_return" : {
                "sum" : {
                    "field" : "change",                  // field
                    "script" : "_value * _value"        // 基於 field 用 script 計算 value
                }
            }
        }
    }
}


Percentiles Aggregation(multi-value)

百分百聚合——基於聚合文件中某個數值型別的值,求這些值中

用於計算的值可以是特定的數值型欄位,也可以通過指令碼計算而來。

配置引數

  • field:用於計算的欄位
  • script:由指令碼生成用來計算的 value
  • missing:文件預設欄位時的預設值

Script Metric Aggregation

基於指令碼的權值聚合——用指令碼來計算出一個權值

配置引數

  • init_script:用於計算的欄位
  • map_script:由指令碼生成用來計算的 value
  • combine_script:文件預設欄位時的預設值
  • reduce_script:

{
    "query" : {
        "match_all" : {}
    },
    "aggs": {
        "profit": {
            "scripted_metric": {
                "init_script" : "_agg['transactions'] = []",
                "map_script" : "if (doc['type'].value == \"sale\") { _agg.transactions.add(doc['amount'].value) } else { _agg.transactions.add(-1 * doc['amount'].value) }", 
                "combine_script" : "profit = 0; for (t in _agg.transactions) { profit += t }; return profit",
                "reduce_script" : "profit = 0; for (a in _aggs) { profit += a }; return profit"
            }
        }
    }
}


Top hits Aggregation

最高匹配權值聚合——跟蹤聚合中相關性最高的文件。

該聚合一般用做 sub-aggregation,以此來聚合每個桶中的最高匹配的文件。

配置引數

  • from:最匹配的結果中的文件個數偏移
  • size:top matching hits 返回的最大文件個數(default 3)
  • sort:最匹配的文件的排序方式
    
    
    
    {
        "aggs": {
            "top-tags": {
                "terms": {
                    "field": "tags",
                    "size": 3
                },
                "aggs": {
                    "top_tag_hits": {
                        "top_hits": {                  //用 tags 欄位分組,每個 tag(即一個分組)只顯示最後一個問題,並且只在 _source 中保留 title 欄位
                            "sort": [
                                {
                                    "last_activity_date": {
                                        "order": "desc"
                                    }
                                }
                            ],
                            "_source": {
                                "include": [
                                    "title"
                                ]
                            },
                            "size" : 1
                        }
                    }
                }
            }
        }
    }
    //輸出
    "top_tags_hits": {
         "hits": {
              "total": 25365,
              "max_score": 1,
              "hits": [
                  {
                     "_index": "stack",
                     "_type": "question",
                     "_id": "602679",
                     "_score": 1,
                     "_source": {
                          "title": "Windows port opening"
                     },
                     "sort": [
                          1370143231177
                      ]
                   }
               ]
         }
    }
    
    
    

     

Value Count Aggregation(single-value)

值計數聚合——計算聚合文件中某個值的個數。

用於計數的值可以是特定的數值型欄位,也可以通過指令碼計算而來。

該聚合一般域其它 single-value 聚合聯合使用,比如在計算一個欄位的平均值的時候,可能還會關注這個平均值是由多少個值計算而來。

配置引數

  • field:用於計算的欄位
  • script:由指令碼生成用來計算的 value

{
    "aggs" : {
        "grades_count" : { "value_count" : { "field" : "grade" } }    //計算 grade 欄位共有多少個值,和 cardinality 聚合不同的
    }
}

3 bucket aggregation

概述

桶分聚合不進行權值的計算,他們對文件根據聚合請求中提供的判斷條件(比如:{"from":0,  "to":100})來進行分組(桶分)。

桶分聚合還會額外返回每一個桶內文件的個數。

桶分聚合可以包含子聚合——sub-aggregations(權值聚合不能包含子聚合,可以作為子聚合),子聚合操作將會應用到由父(parent)聚合產生的每一個桶上。

桶分聚合根據聚合條件,可以只定義輸出一個桶;也可以輸出多個;還可以在根據聚合條件動態確定桶個數(比如:terms aggregation)。

Histogram Aggregation(multi-bucket)

直方圖聚合——基於文件中的某個【數值型別】欄位,通過計算來動態的分桶。

一個文件屬於某個桶,計算過程大致如下:

rem = value % interval
if (rem < 0) {
    rem += interval
}
bucket_key = value - rem

配置引數

  • field:欄位,必須為數值型別
  • interval:分桶間距
  • min_doc_count:最少文件數桶過濾,只有不少於這麼多文件的桶才會返回
  • extended_bounds:範圍擴充套件
  • order:對桶排序,如果 histogram 聚合有一個權值聚合型別的"直接"子聚合,那麼排序可以使用子聚合中的結果
  • offset:桶邊界位移,預設從0開始
  • keyed:hash結構返回,預設以陣列形式返回每一個桶
  • missing:配置預設預設值

{
    "aggs" : {
        "prices" : {
            "histogram" : {
                "field" : "price",
                "interval" : 50,
                "min_doc_count" : 1,
                "extended_bounds" : {
                    "min" : 0,
                    "max" : 500
                },
                "order" : { "_count" : "desc" },
                "keyed":true,
                "missing":0
            }
        }
    }
}

Data Histogram Aggregation(multi-bucket)

日期直方圖聚合——基於日期型別,以【日期間隔】來桶分聚合。

可用的時間間隔型別為:year、quarter、month、week、day、hour、minute、second,其中,除了year、quarter 和 month,其餘可用小數形式。

配置引數

  • field:
  • interval:
  • format:定義日期的格式,配置後會返回一個 key_as_string 的字串型別日期(預設只有key)
  • time_zone:定義時區,用作時間值的調整
  • offset:
  • missing:

{
    "aggs" : {
        "articles_over_time" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "month",
                "format" : "yyyy-MM-dd",
                "time_zone": "+08:00"
            }
        }
    }
}

Range Aggregation(multi-bucket)

範圍聚合——基於某個值(可以是 field 或 script),以【欄位範圍】來桶分聚合。

範圍聚合包括 from 值,不包括 to 值(區間前閉後開)。

配置引數

  • ranges:配置區間,陣列,每一個元素是一個區間。例如:[{from:0}, {from:50, to:100}, {to:200}]
  • keyed:以一個關聯的唯一字串作為鍵,以 HASH 形式返回,而不是預設的陣列
  • script:利用 script 執行結果替代普通的 field 值進行聚合。script可以用file給出,還可以對其它 field 進行求值計算。

{
    "aggs" : {
        "price_ranges" : {
            "range" : {
                "field" : "price",
                "ranges" : [                       //包含 3 個桶
                    { "to" : 50 },
                    { "from" : 50, "to" : 100 },
                    { "from" : 100 }
                ],
                "keyed" : true
            }
        }
    }
}

Date Range Aggregation(multi-bucket)

日期範圍聚合——基於日期型別的值,以【日期範圍】來桶分聚合。

日期範圍可以用各種 Date Math 表示式。

同樣的,包括 from 的值,不包括 to 的值。

配置引數

  • format:定義日期格式,配置後會返回一個 [to/from]_as_string 的字串型別日期,預設是 to/from 的數值表示

{
    "aggs": {
        "range": {
            "date_range": {
                "field": "date",
                "format": "MM-yyy",               
                "ranges": [                            //包含 3 個桶
                    { "to": "now-10M/M" }, 
                    { "from": "now-10M/M" },
                    {"from":"1970-1-1", "to":"2000-1-1"}
                ]
            }
        }
    }
}

Terms Aggregation(multi-bucket)

詞元聚合——基於某個field,該 field 內的每一個【唯一詞元】為一個桶,並計算每個桶內文件個數。

預設返回順序是按照文件個數多少排序。

當不返回所有 buckets 的情況,文件個數可能不準確。

配置引數

  • size:size用來定義需要返回多個 buckets(防止太多),預設會全部返回。(注意,如果只返回部分buckets,統計的文件個數不一定準確(每個分片各自的top size個)。size 越大,count 會越精確。)
  • order:排序方式
  • min_doc_count:只返回文件個數不小於該值的 buckets
  • script:用基本來生成詞元
  • include:包含過濾
  • exclude:排除過濾
  • execution_hint:
  • collect_mode:
  • missing:

{
    "aggs" : {
        "genders" : {
            "terms" : { 
              "field" : "gender",
              "size" : 5,
              "order" : { "_count" : "asc" },
              "min_doc_count": 10,
              "include" : ".*sport.*",
              "exclude" : "water_.*",
              "missing": "N/A"
            }
        }
    }
}

Filters Aggregation(multi-bucket)

多過濾聚合——基於多個過濾條件,來對當前文件進行【過濾】的聚合,每個過濾都包含所有滿足它的文件(多個bucket中可能重複)。

配置引數

  • filters: 配置過濾條件,支援 HASH 或 陣列格式
  • other_bucket: 是否計算不滿足任何匹配條件的文件
  • other_bucket_key: 作為不匹配所有過濾條件的文件的 bucket 名稱

{
  "aggs" : {
    "messages" : {
      "filters" : {
        "other_bucket_key": "other_messages",                //不在過濾條件範圍內的文件都歸屬於 other_messages 桶
        "filters" : {                                        //過濾條件
          "errors" :   { "term" : { "body" : "error"   }},   
          "warnings" : { "term" : { "body" : "warning" }}
        }
      },
      "aggs" : {
        "monthly" : {
          "histogram" : {
            "field" : "timestamp",
            "interval" : "1M"
          }
        }
      }
    }
  }
}

Filter Aggregation(single-bucket)

過濾聚合——基於一個條件,來對當前的文件進行過濾的聚合。


{
    "aggs" : {
        "red_products" : {
            "filter" : { "term": { "color": "red" } },
            "aggs" : {
                "avg_price" : { "avg" : { "field" : "price" } }
            }
        }
    }
}

IPv4 Range Aggregation(multi-bucket)

IP4聚合——基於一個 IPv4 欄位,對文件進行【IPv4範圍】的桶分聚合。

和 Range Aggregation 類似,只是應用欄位必須是 IPv4 資料型別。


{
    "aggs" : {
        "ip_ranges" : {
            "ip_range" : {
                "field" : "ip",
                "ranges" : [                                //包含 3 個桶,各個桶之間可能有文件重複
                    { "to" : "10.0.0.5" },
                    { "from" : "10.0.0.5" },
                    { "from":"1.1.1.1", "to" : "10.0.0.5" },
                ]
            }
        }
    }
}

Nested Aggregation(single-bucket)

巢狀型別聚合——基於巢狀(nested)資料型別,把該【巢狀型別的資訊】聚合到單個桶裡,然後就可以對巢狀型別做進一步的聚合操作。


// resellers 是一個巢狀型別
{
    ...
    "product" : {
        "properties" : {
            "resellers" : { 
                "type" : "nested",
                "properties" : {
                    "name" : { "type" : "string" },
                    "price" : { "type" : "double" }
                }
            }
        }
    }
}
// 對 nested 物件裡面的資訊做其它聚合操作
{
    "query" : {
        "match" : { "name" : "led tv" }
    },
    "aggs" : {
        "resellers" : {
            "nested" : {                           //"巢狀型別聚合"把所有巢狀資訊都包含在單一的桶裡,以供進一步處理
                "path" : "resellers"
            },
            "aggs" : {
                "min_price" : { "min" : { "field" : "resellers.price" } }   //對巢狀型別聚合輸出的桶做進一步處理,這裡是計算其 price 的 average
            }
        }
    }
}

4 pipeline aggregations

概述

管道聚合處理的物件是其它聚合的輸出(桶或者桶的某些權值),而不是直接針對文件。

管道聚合的作用是為輸出增加一些有用資訊。

管道聚合大致分為兩類:

parent

  • 此類聚合的"輸入"是其【父聚合】的輸出,並對其進行進一步處理。一般不生成新的桶,而是對父聚合桶資訊的增強。

sibling

  • 此類聚合的輸入是其【兄弟聚合】的輸出。並能在同級上計算新的聚合。

管道聚合通過 buckets_path 引數指定他們要進行聚合計算的權值物件,buckets_path 引數有其自己的使用語法。

管道聚合不能包含子聚合,但是某些型別的管道聚合可以鏈式使用(比如計算導數的導數)。

bucket_path語法

1. 聚合分隔符 ==> ">",指定父子聚合關係,如:"my_bucket>my_stats.avg"

2. 權值分隔符 ==> ".",指定聚合的特定權值

3. 聚合名稱 ==> <name of the aggregation> ,直接指定聚合的名稱

4. 權值 ==> <name of the metric> ,直接指定權值

5. 完整路徑 ==> agg_name[> agg_name]*[. metrics] ,綜合利用上面的方式指定完整路徑

6. 特殊值 ==> "_count",輸入的文件個數

特殊情況

1. 要進行 pipeline aggregation 聚合的物件名稱或權值名稱包含小數點

  • "buckets_path": "my_percentile[99.9]"

2. 處理物件中包含空桶(無文件的桶分)

  • 引數 gap_policy,可選值有 skip、insert_zeros

Avg Bucket Aggregation(sibliing)

桶均值聚合——基於兄弟聚合的某個權值,求所有桶的權值均值。

用於計算的兄弟聚合必須是多桶聚合。

用於計算的權值必須是數值型別。

配置引數

  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義

{
    "aggs" : {
        "sales_per_month" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "month"
            },
            "aggs": {
                "sales": {
                    "sum": {
                        "field": "price"
                    }
                }
            }
        },
        "avg_monthly_sales": {
            "avg_bucket": {             //對所有月份的銷售總 sales 求平均值
                "buckets_path": "sales_per_month>sales" 
            }
        }
    }
}

 

Derivative Aggregation(parent)

求導聚合——基於父聚合(只能是histogram或date_histogram型別)的某個權值,對權值求導。

用於求導的權值必須是數值型別。

封閉直方圖(histogram)聚合的 min_doc_count 必須是 0。

配置引數

  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義

{
    "aggs" : {
        "sales_per_month" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "month"
            },
            "aggs": {
                "sales": {
                    "sum": {
                        "field": "price"
                    }
                },
                "sales_deriv": {       //對每個月銷售總和 sales 求導
                    "derivative": {
                        "buckets_path": "sales"  //同級,直接用 metric 值
                    }
                }
            }
        }
    }
}


Max Bucket Aggregation(sibling)

桶最大值聚合——基於兄弟聚合的某個權值,輸出權值最大的那一個桶。

用於計算的權值必須是數值型別。

用於計算的兄弟聚合必須是多桶聚合型別。

配置引數

  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義

 

Min Bucket Aggregation(sibling)

桶最小值聚合——基於兄弟聚合的某個權值,輸出權值最小的一個桶。

用於計算的權值必須是數值型別。

用於計算的兄弟聚合必須是多桶聚合型別。

配置引數

  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義

 

Sum Buchet Aggregation(sibling)

桶求和聚合——基於兄弟聚合的權值,對所有桶的權值求和。

用於計算的權值必須是數值型別。

用於計算的兄弟聚合必須是多桶聚合型別。

配置引數

  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義

{
    "aggs" : {
        "sales_per_month" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "month"
            },
            "aggs": {
                "sales": {
                    "sum": {
                        "field": "price"
                    }
                }
            }
        },
        "max_monthly_sales": {        //輸出兄弟聚合 sales_per_month 的每月銷售總和 sales 的最大一個桶
            "max_bucket": {
                "buckets_path": "sales_per_month>sales" 
            }
        },
        "min_monthly_sales": {         //輸出兄弟聚合 sales_per_month 的每月銷售總和 sales 的最小一個桶
            "min_bucket": {
                "buckets_path": "sales_per_month>sales" 
            }
        },
        "sum_monthly_sales": {         //輸出兄弟聚合 sales_per_month 的每月銷售總和 sales 的最小一個桶
            "sum_bucket": {
                "buckets_path": "sales_per_month>sales" 
            }
        }
    }
}

 

Stats Bucket Aggregation(sibling)

桶統計資訊聚合——基於兄弟聚合的某個權值,對【桶的資訊】進行一些統計學運算(總計多少個桶、所有桶中該權值的最大值、最小等)。

用於計算的權值必須是數值型別。

用於計算的兄弟聚合必須是多桶聚合型別。

配置引數

  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義

{
    "aggs" : {
        "sales_per_month" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "month"
            },
            "aggs": {
                "sales": {
                    "sum": {
                        "field": "price"
                    }
                }
            }
        },
        "stats_monthly_sales": {               // 對父聚合的每個桶(每月銷售總和)的一些基本資訊進行聚合
            "stats_bucket": {
                "buckets_paths": "sales_per_month>sales" 
            }
        }
    }
}
//輸出結果
{
   "aggregations": {
      "sales_per_month": {
         "buckets": [
            {
               "key_as_string": "2015/01/01 00:00:00",
               "key": 1420070400000,
               "doc_count": 3,
               "sales": {
                  "value": 550
               }
            },
            {
               "key_as_string": "2015/02/01 00:00:00",
               "key": 1422748800000,
               "doc_count": 2,
               "sales": {
                  "value": 60
               }
            },
            {
               "key_as_string": "2015/03/01 00:00:00",
               "key": 1425168000000,
               "doc_count": 2,
               "sales": {
                  "value": 375
               }
            }
         ]
      },
      "stats_monthly_sales": {        //注意,統計的是桶的資訊
         "count": 3,
         "min": 60,
         "max": 550,
         "avg": 328.333333333,
         "sum": 985
      }
   }
}

 

Extended Stats Bucket Aggregation(sibling)

擴充套件桶統計聚合——基於兄弟聚合的某個權值,對【桶資訊】進行一系列統計學計算(比普通的統計聚合多了一些統計值)。

用於計算的權值必須是數值型別。

用於計算的兄弟聚合必須是多桶聚合型別。

配置引數

  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義
  • sigma:偏差顯示位置(above/below)

 

Percentiles Bucket Aggregation(sibling)

桶百分比聚合——基於兄弟聚合的某個權值,計算權值的百分百。

用於計算的權值必須是數值型別。

用於計算的兄弟聚合必須是多桶聚合型別。

對百分百的計算是精確的(不像Percentiles Metric聚合是近似值),所以可能會消耗大量記憶體

配置引數

  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義
  • percents:需要計算的百分百列表(陣列形式)

 

Moving Average Aggregation(parent)

視窗平均值聚合——基於已經排序過的資料,計算出處在當前出口中資料的平均值。

比如視窗大小為 5 ,對資料 1—10 的部分視窗平均值如下:

  • (1 + 2 + 3 + 4 + 5) / 5 = 3
  • (2 + 3 + 4 + 5 + 6) / 5 = 4
  • (3 + 4 + 5 + 6 + 7) / 5 = 5

配置引數

  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • window:視窗大小
  • model:移動模型
  • minimize:
  • settings:


{
    "the_movavg":{
        "moving_avg":{
            "buckets_path": "the_sum",
            "window" : 30,
            "model" : "simple"
        }
    }
}

 

Cumulative Sum Aggregation(parent)

累計和聚合——基於父聚合(只能是histogram或date_histogram型別)的某個權值,對權值在每一個桶中求所有之前的桶的該值累計的和。

用於計算的權值必須是數值型別。

封閉直方圖(histogram)聚合的 min_doc_count 必須是 0。

配置引數

  • buckets_path:用於計算均值的權值路徑
  • format:該聚合的輸出格式定義

{
    "aggs" : {
        "sales_per_month" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "month"
            },
            "aggs": {
                "sales": {
                    "sum": {
                        "field": "price"
                    }
                },
                "cumulative_sales": {
                    "cumulative_sum": {
                        "buckets_path": "sales" 
                    }
                }
            }
        }
    }
}
//輸出
{
   "aggregations": {
      "sales_per_month": {
         "buckets": [
            {
               "key_as_string": "2015/01/01 00:00:00",
               "key": 1420070400000,
               "doc_count": 3,
               "sales": {
                  "value": 550
               },
               "cumulative_sales": {
                  "value": 550                //總計 sales = 550
               }
            },
            {
               "key_as_string": "2015/02/01 00:00:00",
               "key": 1422748800000,
               "doc_count": 2,
               "sales": {
                  "value": 60
               },
               "cumulative_sales": {
                  "value": 610               //總計 sales = 550 + 60
               }
            },


Bucket Script Aggregation(parent)

桶指令碼聚合——基於父聚合的【一個或多個權值】,對這些權值通過指令碼進行運算。

用於計算的父聚合必須是多桶聚合。

用於計算的權值必須是數值型別。

執行指令碼必須要返回數值型結果。

配置引數

  • script:用於計算的指令碼,指令碼可以是 inline,也可以是 file,還可以是 Scripting 指定的
  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義

{
    "aggs" : {
        "sales_per_month" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "month"
            },
            "aggs": {
                "total_sales": {
                    "sum": {
                        "field": "price"
                    }
                },
                "t-shirts": {
                  "filter": {
                    "term": {
                      "type": "t-shirt"
                    }
                  },
                  "aggs": {
                    "sales": {
                      "sum": {
                        "field": "price"
                      }
                    }
                  }
                },
                "t-shirt-percentage": {
                    "bucket_script": {
                        "buckets_path": {                    //對兩個權值進行計算
                          "tShirtSales": "t-shirts>sales",
                          "totalSales": "total_sales"
                        },
                        "script": "tShirtSales / totalSales * 100"
                    }
                }
            }
        }
    }
}


Bucket Selector Aggregation(parent)

桶選擇器聚合——基於父聚合的【一個或多個權值】,通過指令碼對權值進行計算,並決定父聚合的哪些桶需要保留,其餘的將被丟棄。

用於計算的父聚合必須是多桶聚合。

用於計算的權值必須是數值型別。

運算的指令碼必須是返回 boolean 型別,如果指令碼是指令碼表示式形式給出,那麼允許返回數值型別。

配置引數

  • script:用於計算的指令碼,指令碼可以是 inline,也可以是 file,還可以是 Scripting 指定的
  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)

{
    "bucket_selector": {
        "buckets_path": {
            "my_var1": "the_sum", 
            "my_var2": "the_value_count"
        },
        "script": "my_var1 > my_var2"    // true 則保留該桶;false 則丟棄
    }
}

 

Serial Differencing Aggregation(parent)

序列差分聚合——基於父聚合(只能是histogram或date_histogram型別)的某個權值,對權值值進行差分運算,(取時間間隔,後一刻的值減去前一刻的值:f(X) = f(Xt) – f(Xt-n))。

用於計算的父聚合必須是多桶聚合。

配置引數

  • lag:滯後間隔(比如lag=7,表示每次從當前桶的值中減去其前面第7個桶的值)
  • buckets_path:用於計算均值的權值路徑
  • gap_policy:空桶處理策略(skip/insert_zeros)
  • format:該聚合的輸出格式定義


{
   "aggs": {
      "my_date_histo": {                  
         "date_histogram": {
            "field": "timestamp",
            "interval": "day"
         },
         "aggs": {
            "the_sum": {
               "sum": {
                  "field": "lemmings"     
               }
            },
            "thirtieth_difference": {
               "serial_diff": {                
                  "buckets_path": "the_sum",
                  "lag" : 30                        //差分間隔為 30 day
               }
            }
         }
      }
   }
}