hive優化-count(distinct)

阿新 • • 發佈：2018-12-18

問題描述

COUNT(DISTINCT xxx)在hive中很容易造成資料傾斜。針對這一情況，網上已有很多優化方法，這裡不再贅述。
但有時，“資料傾斜”又幾乎是必然的。我們來舉個例子：

假設表detail_sdk_session中記錄了訪問某網站M的客戶端會話資訊，即：如果使用者A開啟app客戶端，則會產生一條會話資訊記錄在該表中，該表的粒度為“一次”會話，其中每次會話都記錄了使用者的唯一標示uuid，uuid是一個很長的字串，假定其長度為64位。現在的需求是：每天統計當月的活用使用者數——“月活躍使用者數”（當月訪問過app就為活躍使用者）。我們以2016年1月為例進行說明，now表示當前日期。
最簡單的方法

這個問題邏輯上很簡單，SQL也很容易寫出來，例如：

SELECT
  COUNT(DISTINCT uuid)
FROM detail_sdk_session t
WHERE t.date >= '2016-01-01' AND t.date <= now
  
   1
   2
   3
   4

上述SQL程式碼中，now表示當天的日期。很容易想到，越接近月末，上面的統計的資料量就會越大。更重要的是，在這種情況下，“資料傾斜”是必然的，因為只有一個reducer在進行COUNT(DISTINCT uuid)的計算，所有的資料都流向唯一的一個reducer，不傾斜才怪。

優化1

其實，在COUNT(DISTINCT xxx)的時候，我們可以採用“分治”的思想來解決。對於上面的例子，首先我們按照uuid的前n位進行GROUP BY，並做COUNT(DISTINCT )操作，然後再對所有的COUNT(DISTINCT)結果進行求和。
我們先把SQL寫出來，然後再做分析。

-- 外層SELECT求和
SELECT
  SUM(mau_part) mau
FROM
(
  -- 內層SELECT分別進行COUNT(DISTINCT)計算
  SELECT
    substr(uuid, 1, 3) uuid_part,
    COUNT(DISTINCT 
 substr(uuid, 4)) AS mau_part
  FROM detail_sdk_session
  WHERE partition_date >= '2016-01-01' AND partition_date <= now
  GROUP BY substr(uuid, 1, 3)
) t;
  
   1
   2
   3
   4
   5
   6
   7
   8
   9
   10
   11
   12
   13

上述SQL中，內層SELECT根據uuid的前3位進行GROUP BY，並計算相應的活躍使用者數COUNT(DISTINCT)，外層SELECT求和，得到最終的月活躍使用者數。
這種方法的好處在於，在不同的reducer各自進行COUNT(DISTINCT)計算，充分發揮hadoop的優勢，然後進行求和。

注意，上面SQL中，n設為3，不應過大。
為什麼n不應該太大呢？我們假定uuid是由字母和數字組成的：大寫字母、小寫字母和數字，字元總數為26+26+10=62。理論上，內層SELECT進行GROUP BY時，會有 62^n 個分組，外層SELECT就會進行 62^n 次求和。所以n不宜過大。當然，如果資料量十分巨大，n必須充分大，才能保證內層SELECT中的COUNT(DISTINCT)能夠計算出來，此時可以再巢狀一層SELECT，這裡不再贅述。

優化2

其實，很多部落格中都記錄了使用GROUP BY 操作代替 COUNT(DISTINCT) 操作，但有時僅僅使用GROUP BY操作還不夠，還需要加點小技巧。
還是先來看一下程式碼：

--  第三層SELECT
SELECT
  SUM(s.mau_part) mau
FROM
(
  -- 第二層SELECT
  SELECT
    tag,
    COUNT(*) mau_part
  FROM
  (
      -- 第一層SELECT
    SELECT
      uuid, 
      CAST(RAND() * 100 AS BIGINT) tag  -- 為去重後的uuid打上標記，標記為：0-100之間的整數。
    FROM detail_sdk_session
    WHERE partition_date >= '2016-01-01' AND partition_date <= now
    GROUP BY uuid   -- 通過GROUP BY，保證去重
   ) t
  GROUP BY tag
) s
;
  
   1
   2
   3
   4
   5
   6
   7
   8
   9
   10
   11
   12
   13
   14
   15
   16
   17
   18
   19
   20
   21
   22

第一層SELECT：對uuid進行去重，併為去重後的uuid打上整數標記
第二層SELECT：按照標記進行分組，統計每個分組下uuid的個數
第三層SELECT：對所有分組進行求和
上面這個方法最關鍵的是為每個uuid進行標記，這樣就可以對其進行分組，分別計數，最後去和。如果資料量確實很大，也可以增加分組的個數。例如：CAST(RAND() * 1000 AS BIGINT) tag
—-EOF—–
Categories: hive Tags: hive COUNT DISTINCT

原文地址： Hive之COUNT DISTINCT優化

hive優化-count(distinct)

問題描述

優化1

優化2

問題描述

hive優化-count(distinct)

Hive SQL優化之 Count Distinct

Hive中的count(distinct)優化

Postgresql資料庫count(distinct)優化

hive count distinct

sql優化之：count(distinct xxxx)

Hive優化

使用子查詢可提升 COUNT DISTINCT 速度 50 倍

hive優化總結

min/max優化,count ,group by

hive優化之——控制hive任務中的map數和reduce數

Hadoop生態圈-hive優化手段-作業和查詢優化

hive優化分享

hive優化，控制map、reduce數量

hive優化，開啟壓縮功能

hive優化過頭出問題，可以使用一下方式

Hive查詢count()有資料，但是select 沒有資料

在Apache Kylin中使用Count Distinct

大資料（二十三）：hive優化、表優化

hive優化（1）

hive優化-count(distinct)

問題描述

優化1

優化2

問題描述

相關推薦