ElasticSearch聚合分析

阿新 • • 發佈：2018-08-19

發生 ucc 語句 time 視頻 HERE selector pip 實際應用

聚合用於分析查詢結果集的統計指標，我們以觀看日誌分析為例，介紹各種常用的ElasticSearch聚合操作。

查詢用戶觀看視頻數和觀看時長
聚合分頁器
查詢視頻uv
- 單個視頻uv
- 批量查詢視頻uv
Having查詢
- 根據 count 進行過濾
- 根據其它指標進行過濾

首先展示一下我們要分析的文檔結構:

{
    "video_id": 1289643545120062253, // 視頻id
    "video_uid": 3931482202390368051, // 視頻發布者id
    "uid": 47381776787453866, // 觀看用戶id
    "time": 1533891263224, // 時間發生時間
    "watch_duration": 30 // 觀看時長
}

每個文檔記錄了一個觀看事件，我們通過聚合分析用戶的觀看行為。

ElasticSearch引入了兩個相關概念：

桶(Buckets): 滿足特定條件的文檔的集合
指標(Metrics): 桶中文檔的統計值，如特定字段的平均值

查詢用戶觀看視頻數和觀看時長

首先用sql語句描述這個查詢:

SELECT uid, count(*) as view_count, avg(watch_duration) as avg_duration 
FROM view_log
WHERE time >= #{since} AND time <= #{to} 
GROUP BY uid;

GET /view_log/_search
{
   "size" : 0,
   "query": {
       "range": {
           "time": {
               "gte": 0, // since
               "lte": 0 // to
           }
       }
   },
   "aggs": {
      "agg": { // agg為聚合的名稱
        "terms": { // 聚合的條件為 uid 相同
          "field": "uid"
        },
        "aggs": { // 添加統計指標(Metrics)
          "avg_duration": { 
              "avg": { // 統計 watch_duration 的平均值
                "field": "watch_duration" 
              }
          }
        }
      }
   }
}

response:

{
  "took": 10,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 100000,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "agg": {
      "buckets": [
        {
          "key": 21836334489858688,
          "doc_count": 4026,
          "avg_duration": {
            "value": 12778.882352941177
          }
        },
        {
          "key": 31489302390368051,
          "doc_count": 2717,
          "avg_duration": {
            "value": 2652.5714285714284
          }
        }
      ]
    }
}

result.aggregations.agg.buckets列表中包含了查詢的結果。

因為我們按照terms:uid進行聚合，每個bucket為uid相同的文檔集合，key字段即為uid。

doc_count 字段表明bucket中文檔的數目即sql語句中的count(*) as view_count。

avg_duration.value 表示 watch_duration 的平均值即該用戶的平均觀看時長。

聚合分頁器

在實際應用中用戶的數量非常驚人, 不可能通過一次查詢得到全部結果因此我們需要分頁器分批取回:

GET /view_log/_search
{
   "size" : 0,
   "query": {
       "range": {
           "time": {
               "gte": 0, // since
               "lte": 0 // to
           }
       }
   },
   "aggs": {
      "agg": { 
        "terms": { 
            "field": "uid",
            "size": 10000, // bucket 的最大個數
            "include": { // 將聚合結果分為10頁，序號為[0,9], 取第一頁
                "partition": 0,
                "num_partitions": 10 
            }
        },
        "aggs": { 
          "avg_duration": { 
              "avg": { 
                "field": "watch_duration" 
              }
          }
        }
      }
   }
}

上述查詢與上節的查詢幾乎完全相同，只是在aggs.agg.terms字段中添加了include字段進行分頁。

查詢視頻uv

單個視頻uv

uv是指觀看一個視頻的用戶數(user view)，與此相對沒有按照用戶去重的觀看數稱為pv(page view)。

用SQL語句來描述:

SELECT video_id, count(*) as pv, count(distinct uid) as uv
FROM view_log
WHERE video_id = #{video_id};

ElasticSearch可以方便的進行count(distinct)查詢:

GET /view_log/_search
{
    "aggs": {
      "uv": {
        "cardinality": {
          "field": "uid"
        }
      }
   }
}

response:

{
  "took": 255,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 17579,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "uv": {
      "value": 11
    }
  }
}

批量查詢視頻uv

ElasticSearch也可以批量查詢count(distinct), 先用SQL進行描述:

SELECT video_id, count(*) as pv, count(distinct uid) as uv
FROM view_log
GROUP BY video_id;

查詢:

GET /view_log/_search
{
    "size": 0,
    "aggs": {
      "video": {
        "terms": {
          "field": "video_id"
        },
        "aggs": {
          "uv": {
              "cardinality": {
                "field": "uid"
              }
          }
        }
      }
   }
}

response:

{
  "took": 313,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 16940,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "video": {
      "buckets": [
        {
          "key": 25417499722062, // 視頻id
          "doc_count": 427, // 視頻觀看次數 pv
          "uv": {
            "value": 124 // 觀看視頻的用戶數 uv
          }
        },
        {
          "key": 72446898144,
          "doc_count": 744,
          "uv": {
            "value":233
          }
        }
      ]
    }
  }
}

Having查詢

SQL可以使用HAVING語句根據聚合結果進行過濾，ElasticSearch可以使用pipeline aggregations達到此效果不過語法較為繁瑣。

根據 count 進行過濾

使用SQL查詢觀看超過200次的視頻:

SELECT video_id, count(*) as view_count
FROM view_log
GROUP BY video_id
HAVING count(*) > 200;

GET /view_log/_search
{
  "size": 0,
  "aggs": {
    "view_count": {
      "terms": {
        "field": "video_id"
      },
      "aggs": {
        "having": {
          "bucket_selector": {
            "buckets_path": { // 選擇 view_count 聚合的 doc_count 進行過濾
              "view_count": "_count"
            },
            "script": {
              "source": "params.view_count > 200"
            }
          }
        }
      }
    }
  }
}

response:

{
  "took": 83,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 775,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "view_count": {
      "buckets": [
        {
          "key": 35025417499764062,
          "doc_count": 529
        },
        {
          "key": 19913672446898144,
          "doc_count": 759
        }
      ]
    }
  }
}

ElasticSearch實現類似HAVING查詢的關鍵在於使用[bucket_selector]選擇聚合結果進行過濾。

根據其它指標進行過濾

接下來我們嘗試查詢平均觀看時長大於5分鐘的視頻, 用SQL描述該查詢:

SELECT video_id FROM view_log
GROUP BY video_id
HAVING avg(watch_duration) > 300;

GET /view_log/_search
{
  "size": 0,
  "aggs": {
    "video": {
      "terms": {
        "field": "video_id"
      },
      "aggs": {
        "avg_duration": {
          "avg": {
            "field": "watch_duration"
          } 
        },
        "avg_duration_filter": {
          "bucket_selector": {
            "buckets_path": {
              "avg_duration": "avg_duration"
              },
              "script": {
                "source": "params.avg_duration > 200"
              }
          }  
        }
      }
    }
  }
}

response:

{
  "took": 137,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 255,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "video": {
      "buckets": [
        {
          "key": 5417499764062,
          "doc_count": 91576,
          "avg_duration": {
            "value": 103
          }
        },
        {
          "key": 19913672446898144,
          "doc_count": 15771,
          "avg_duration": {
            "value": 197
          }
        }
      ]
    }
  }
}

ElasticSearch聚合分析

發生 ucc 語句 time 視頻 HERE selector pip 實際應用聚合用於分析查詢結果集的統計指標，我們以觀看日誌分析為例，介紹各種常用的ElasticSearch聚合操作。目錄：查詢用戶觀看視頻數和觀看時長聚合分頁器查詢視頻uv 單個視頻uv

ElasticSearch聚合分析API

前言說完了ES的索引與檢索，接著再介紹一個ES高階功能API – 聚合(Aggregations)，聚合功能為ES注入了統計分析的血統，使使用者在面對大資料提取統計指標時變得遊刃有餘。同樣的工作，你在hadoop中可能需要寫mapreduce或hive，在

搜尋引擎（Elasticsearch聚合分析）

開發十年，就只剩下這套架構體系了！ >>>

ElasticSearch 聚合分析

> **公號：碼農充電站pro** > **主頁：** ES 中的[聚合分析](https://www.elastic.co/guide/en/elasticsearch/reference/7.10/search-aggregations.html)（Aggregations）是對資料的統計分析功能，它的

Elasticsearch學習之深入聚合分析三---案例實戰

引用實戰 avg buck oba core 電視針對過濾 1. 統計指定品牌下每個顏色的銷量任何的聚合，都必須在搜索出來的結果數據中進行，搜索結果，就是聚合分析操作的scope GET /tvs/sales/_search { "size": 0, "

Elasticsearch學習之深入聚合分析五---案例實戰

ppi ont doc indices 理解 req eve 同步 nod 1. fielddata核心原理　　fielddata加載到內存的過程是lazy加載的，對一個analzyed field執行聚合時，才會加載，而且是field-level加載的,一個index的

elasticsearch 筆記四：聚合分析

1.第一個分析需求：計算每個tag下的商品數量 GET /ecommerce/product/_search { "aggs": { "group_by_tags": { "terms": { "field": "tags"

ElasticSearch最佳入門實踐（七十三）Java 實戰 - 對員工資訊進行聚合分析

構建資料 client.prepareIndex("company", "employee", "1") .setSource(XContentFactory.jsonBuilder() .startOb

Elasticsearch搜尋引擎第十二篇-聚合分析

文章目錄聚合分析簡介指標聚合 max min sum avg 文件計數佔比百分位對應的值統計統計值小於等於指定值的文件佔比求文件幾種的座標點範圍求中心點座標值桶聚合

ElasticSearch教程——kibana巢狀聚合，下鑽分析，聚合分析

兩個核心概念：bucket和metric city name 北京小李北京小王上海小張上海小麗上海小陳基於city劃分buckets 劃分出來兩個bucket，一個是北京bucket，一個是上海bucket 北京bucket：包含了2個人，小

Elasticsearch 之（43） Java API 實現 ES 的增刪改查、聚合分析

package com.es.app; import java.net.InetAddress; import org.elasticsearch.action.search.SearchResponse; import org.elasticsearch.client.transport.Transpo

ElasticSearch之——巢狀聚合，下鑽分析，聚合分析

1、第一個分析需求計算每個tag下的商品數量GET /ecommerce/product/_search { "aggs": { "group_by_tags": { "terms": { "field": "tags" } } } }將文

第三篇 elasticsearch的group by+avg+sort等聚合分析

本文依據如下資料模板進行分析 PUT /ecommerce/product/1 { "name" : "gaolujie yagao", "desc" : "gaoxiao meibai", "price" : 30,

elasticsearch系列六：聚合分析（聚合分析簡介、指標聚合、桶聚合）

{ "took": 2059, "timed_out": false, "_shards": { "total": 58, "successful": 58, "skipped": 0, "failed": 0 }, "hits": { "total": 1015,

ElasticStack學習（八）：ElasticSearch索引模板與聚合分析初探

一、Index Template與Dynamic Template的概念　　1、Index Template：它是用來根據提前設定的Mappings和Settings，並按照一定的規則，自動匹配到新建立的索引上。　　　　1）模板僅是一個索引被建立時才會起作用，修改模板並不會影響已建立的索引；　　　

Elasticsearch 之聚合分析入門

本文主要介紹 Elasticsearch 的聚合功能，介紹什麼是 Bucket 和 Metric 聚合，以及如何實現巢狀的聚合。首先來看下聚合（Aggregation）： ## 什麼是 Aggregation？ ![](https://img-blog.csdnimg.cn/2020032

Elasticsearch聚合之 Terms

exc 定性方式 earch des 執行 stc 默認 gen 本篇著重講解的terms聚合，它是按照某個字段中的值來分類：比如性別有男、女，就會創建兩個桶，分別存放男女的信息。默認會搜集doc_count的信息，即記錄有多少男生，有多少女生，然後返回給客戶端，這樣

Elasticsearch聚合初探——metric篇

方式 top .... time 時也 att 求和還需 upper 前言 ES中的聚合被分為兩大類：Metric度量和bucket桶（原諒我英語差，找不到合適的詞語.....就用單詞來說吧！）。說的通俗點，metric很像SQL中的avg、max、min等方法，而buc

elasticsearch--聚合中桶（Buckets）和指標（Metrics）的概念

就會只有一個 img max() earch 執行都是 access buck 寫在前面的話：讀書破萬卷，編碼如有神--------------------------------------------------------------------主要內容包括：

ElasticSearch 聚合函數

metrics ted pop col 最小函數 val max() curl 一、簡單聚合桶：簡單來說就是滿足特定條件的文檔的集合。指標：大多數指標是簡單的數學運算（例如最小值、平均值、最大值，還有匯總），這些是通過文檔的值來計算。桶

ElasticSearch聚合分析

查詢用戶觀看視頻數和觀看時長

聚合分頁器

查詢視頻uv

單個視頻uv

批量查詢視頻uv

Having查詢

根據 count 進行過濾

根據其它指標進行過濾

相關推薦