hive group by 導致的資料傾斜問題

阿新 • • 發佈：2021-08-04

Group By

預設情況下，Map階段同一Key資料分發給一個reduce，當一個key資料過大時就傾斜了。

但並不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以先在Map端進行部分聚合，最後在Reduce端得出最終結果。

1）開啟Map端聚合引數設定

（1）是否在Map端進行聚合（預設為true）

set hive.auto.convert.join = true;

（2）在Map端進行聚合操作的條目數目

set hive.groupby.mapaggr.checkinterval = 100000

（3）有資料傾斜的時候進行負載均衡（預設是false）

set hive.groupby.skewindata = true

情況一：

select count(distinct member_no),trade_date from uiopdb.sx_trade_his_detail  group by trade_date

優化後

select count(member_no),trade_date from 
(
select member_no,trade_date as trade_date from uiopdb.sx_trade_his_detail  group by member_no,trade_date
) d
group by trade_date

情況二：

但是對於很大的表，比如需要統計每個會員的總的交易額情況，採用上面的方法也不能跑出來

優化前的程式碼（交易表中有三千萬的資料）

set hive.groupby.skewindata = true;
create table tmp_shop_trade_amt as 
select shop_no ,sum(txn_amt) as txn_amt  from  uiopdb.sx_trade_his_detail
group by shop_no;

優化思路：如果某個key的資料量特別大，資料都集中到某一個reduce Task去進行相關資料的處理，這就導致了資料傾斜問題。

解決方案是首先採用區域性聚合，即給key加上100以內的隨機字首，進行一次預聚合，然後對本次預聚合後的結果進行去掉隨機字首，進行一次資料的全域性聚合。

優化後：

set hive.groupby.skewindata = true;
create table tmp_shop_trade_amt_2 as 
select split(shop_no,'_')[1] as shop_no
      ,sum(txn_amt) total_txn_amt from 
   (
     select concat_ws("_", cast(ceiling(rand()*99) as string), shop_no) as shop_no 
　　　　　　 ,sum(txn_amt) txn_amt 
       from uiopdb.sx_trade_his_detail  
       group by concat_ws("_", cast(ceiling(rand()*99) as string), shop_no)
) s
group by split(shop_no,'_')[1] ;

執行結果

hive group by 導致的資料傾斜問題

Group By 預設情況下，Map階段同一Key資料分發給一個reduce，當一個key資料過大時就傾斜了。

hive.groupby.skewindata及資料傾斜優化

一、hive.groupby.skewindata set hive.groupby.skewindata=true; 資料傾斜時負載均衡，當選項設定為true，生成的查詢計劃會有兩個MRJob。第一個MRJob 中，Map的輸出結果集合會隨機分佈到Reduce中，每個Reduce做部分

【大資料面試】【框架】Hive：架構、計算引擎、比較、內外部表、by、函式、優化、資料傾斜、動靜態分割槽

一、組成 1、架構源資料原本是存在dubby資料庫，存在MySQL可以支援多個客戶端

MySQL only_full_group_by導致的group by錯誤解決

問題 MySQL5.7以上版本，預設是開啟了 only_full_group_by模式的： > select @@sql_mode > select @@global.sql_mode;

基於mysql實現group by取各分組最新一條資料

前言： group by函式後取到的是分組中的第一條資料，但是我們有時候需要取出各分組的最新一條，該怎麼實現呢？

Hive sql 常見資料傾斜(型別不匹配、複雜join條件)的分析解決

技術標籤：大資料sql 本篇以hive sql解析器來討論問題，spark sql 的處理方法類似，大家可自行測試。

[Mysql] GROUP BY （WITH ROLLUP）& ORDER BY (IF)資料分組&條件排序

[Mysql] GROUP BY （WITH ROLLUP）& ORDER BY (IF)資料分組&條件排序 Mysql中 GROUP BY & ORDER BY 組合一起使用，先分組，再在分組統計的基礎上作相同計算，同時對銷售額進行降序排列，總行不參

Mysql版本導致GROUP BY分組異常

技術標籤：Javamysql Mysql版本導致GROUP BY分組異常一、異常資訊 Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated column ‘ecpnew.m.id’ which is not functionally d