hive中的資料傾斜優化

阿新 • • 發佈：2021-10-15

# hive的傾斜種類比較多，下面主要分析join 時，key傾斜的情況，其他案例後續再補充

1. 大表mapjoin 小表時key值中出現null，空字元特別多，其他普通key特別少時，就會出現單個reduce的執行緩慢，遠遠超出其他reduce 的執行時間，例如

select a.id,b.id,a.xxxx
from a
left join b
on a.id=b=id

2. 某個長時間執行reduce 日誌如下, join 的過程超出了兩個小時

3. 通過分析a 表的id 特徵值後發現, null 值特別多

select a.id,count(1) cn from a group by id order by cn desc limit 100

+---------------+------------+
| id | cn |
+---------------+------------+
| NULL | 210192843 |
| xxxxxxxxx1 | 5531250 |
| xxxxxxxxx2 | 3547506 |
| xxxxxxxxx3 | 3125790 |
| xxxxxxxxx4 | 2493601 |
| xxxxxxxxx5 | 2478931 |
| xxxxxxxxx6 | 2290155 |
| xxxxxxxxx7 | 2248076 |

4. 通過調整sql 語句如下，重新執行後，時間大幅縮小

set hive.optimize.skewjoin = true;
set hive.skewjoin.key = 100000;
set hive.auto.convert.join=true;
set hive.mapjoin.smalltable.filesize = 100000000;
select a.id,b.id,a.xxxx
from a
left join b
on a.id=b=id
union all
where a.id is null
select a.id,b.id,a.xxxx
from a
left join b
on a.id=b=id
where a.id is not null

　　

hive中的資料傾斜優化

# hive的傾斜種類比較多，下面主要分析join 時，key傾斜的情況，其他案例後續再補充

hive.groupby.skewindata及資料傾斜優化

一、hive.groupby.skewindata set hive.groupby.skewindata=true; 資料傾斜時負載均衡，當選項設定為true，生成的查詢計劃會有兩個MRJob。第一個MRJob 中，Map的輸出結果集合會隨機分佈到Reduce中，每個Reduce做部分

HiveSQL、SparkSQL資料傾斜優化示例（join需要保留異常資料的場景）

技術標籤：大資料 -- 原邏輯 select m1.id ,m1.addtime ,m2.id ,m2.updatetime from ( select id ,addtime ,m2_id

按圖索驥：SQL中資料傾斜問題的處理思路與方法

資料傾斜即表中某個欄位的值分佈不均勻，比如有100萬條記錄，其中欄位A中有90萬都是相同的值。這種情況下，欄位A作為過濾條件時，可能會引起一些效能問題。

【大資料面試】【框架】Hive：架構、計算引擎、比較、內外部表、by、函式、優化、資料傾斜、動靜態分割槽

一、組成 1、架構源資料原本是存在dubby資料庫，存在MySQL可以支援多個客戶端

hive優化資料傾斜

hive資料傾斜產⽣的原因資料傾斜的原因很⼤部分是join傾斜和聚合傾斜兩⼤類⼀、Hive傾斜之group by聚合傾斜原因：　　分組的維度過少，每個維度的值過多，導致處理某值的reduce耗時很久；　　對⼀些型別統計的時候某

Mysql資料庫中資料表的優化、外來鍵與三正規化用法例項分析

本文例項講述了Mysql資料庫中資料表的優化、外來鍵與三正規化用法。分享給大家供大家參考，具體如下：

2020-08-08：有一批氣象觀測站，現需要獲取這些站點的觀測資料，並存儲到 Hive 中。但是氣象局只提供了 api 查詢，每次只能查詢單個觀測點。那麼如果能夠方便快速地獲取到所有的觀測點的資料？

福哥答案2020-08-08：參考答案：A.通過shell 或python 等呼叫api，結果先暫存本地，最後將本地檔案上傳到 Hive 中。B.通過 datax 的 httpReader 和 hdfsWriter 外掛，從而獲取所需的資料。C.比較理想的回答，是在計

Hive入門操作-通過Hive中SQL讀取hdfs中資料

第一步：建立資料夾寫結構化資料。然後上傳到hdfs 第二步:根據結構化資料在HIVE中建立對應的表 create table tb_log( id int, name string, age int , gender string ) //指定資料以什麼分割 row format deli

Flink實戰（九十三）：資料傾斜（二）keyby 視窗資料傾斜的優化

在大資料處理領域，資料傾斜是一個非常常見的問題，今天我們就簡單講講在flink中如何處理流式資料傾斜問題。

Hive sql 常見資料傾斜(型別不匹配、複雜join條件)的分析解決

技術標籤：大資料sql 本篇以hive sql解析器來討論問題，spark sql 的處理方法類似，大家可自行測試。

hive中匯入csv_[大資料]Hive:Spark,我發現你有小祕密啊~

技術標籤：hive中匯入csv 01 請問，你的夢想是什麼？在大資料公司中，任何一家公司都不會只使用一個框架吧？！

hive group by 導致的資料傾斜問題

Group By 預設情況下，Map階段同一Key資料分發給一個reduce，當一個key資料過大時就傾斜了。

實戰 | Hive 資料傾斜問題定位排查及解決

Hive 資料傾斜怎麼發現，怎麼定位，怎麼解決多數介紹資料傾斜的文章都是以大篇幅的理論為主，並沒有給出具體的資料傾斜案例。當工作中遇到了傾斜問題，這些理論很難直接應用，導致我們面對傾斜時還是不知所措。

Element中select多資料載入優化的實現

目錄場景程式碼實現總結：場景近期著手開發基於ElementUI的後臺管理系統，偶然間發現「el-select」下拉選擇時候遇到一個問題，當渲染下拉選項的「options」的資料量過多時「本專案中的資料條目已過萬」，就會出現下

HIve中匯入、匯出資料的幾種方式

一、往HIVE表中匯入匯出資料　　1.建表時直接匯入：　　如果你的資料已經在HDFS上存在，已經為結構化資料，並且資料所在的HDFS路徑不需要維護，那麼可以直接在建表的時候使用location指定資料所在的HDFS路徑即可

大資料開發Hive中 ORC 儲存格式分析

一、ORC File檔案結構 ORC是列式儲存，有多種檔案壓縮方式，並且有著很高的壓縮比。

mysql中百萬級資料查詢優化

1在做專案的時候遇到這樣的問題就是：當資料達到百萬級的時候分頁查詢的速率非常慢，下面個給直觀的現象截圖：測試資料為500W條資料

Combiner程式設計、reduce join、map join、mapreduce優化總結、通過自定義分割槽類避免資料傾斜、MapReduce自定義排序

Combiner程式設計、reduce join、map join、mapreduce優化總結、通過自定義分割槽類避免資料傾斜、MapReduce自定義排序

Hive 中的複合資料結構簡介以及一些函式的用法說明

目前 hive 支援的複合資料型別有以下幾種： map (key1, value1, key2, value2, ...) Creates a map with the given key/value pairs