大資料----“資料傾斜”的問題

阿新 • • 發佈：2018-11-08

一、Hadoop中的資料傾斜：

什麼是資料傾斜?(見下圖)

簡單來說資料傾斜就是資料的key 的分化嚴重不均，造成一部分資料很多，一部分資料很少的局面。

舉個 word count 的入門例子: 它的map 階段就是形成 (“aaa”,1)的形式，然後在reduce 階段進行 value 相加，得出 “aaa” 出現的次數。若進行 word count 的文字有100G，其中 80G 全部是 “aaa” 剩下 20G 是其餘單詞，那就會形成 80G 的資料量交給一個 reduce 進行相加，其餘 20G 根據 key 不同分散到不同 reduce 進行相加的情況。如此就造成了資料傾斜，臨床反應就是 reduce 跑到 99%然後一直在原地等著那80G 的reduce 跑完。

這裡如果詳細的看日誌或者和監控介面的話會發現：

有一個多幾個reduce卡住

各種container報錯OOM

讀寫的資料量極大，至少遠遠超過其它正常的reduce

伴隨著資料傾斜，會出現任務被kill等各種詭異的表現。

二、導致的原因分為幾種情況：

1.單個值有大量記錄

單個值有大量記錄, 這種值的所有紀錄已經超過了分配給reduce 的記憶體，無論你怎麼樣分割槽這種情況都不會改變. 當然這種情況的限制也非常明顯, 1.記憶體的限制存在，2.可能會對叢集其他任務的執行產生不穩定的影響.

解決方法：(1)增加reduce 的jvm記憶體(效果可能不好)

或者(2)在 key 上面做文章，在 map 階段將造成傾斜的key 先分成多組，例如 aaa 這個 key,map 時隨機在 aaa 後面加上 1,2,3,4 這四個數字之一，把 key 先分成四組，先進行一次運算，之後再恢復 key 進行最終運算。

(在MapReduce/spark,該方法常用)

2.唯一值較多

唯一值較多，單個唯一值的記錄數不會超過分配給reduce 的記憶體. 如果發生了偶爾的資料傾斜情況，增加reduce 個數可以緩解偶然情況下的某些reduce 不小心分配了多個較多記錄數的情況.

解決辦法：增加reduce 個數

3.以上兩種都無效的情況

一個固定的組合重新定義

解決辦法：自定義partitioner

4.從業務和資料上解決資料傾斜

我們能通過設計的角度嘗試解決它。

(1)有損的方法：

找到異常資料，比如ip為0的資料，過濾掉

(2)無損的方法：

對分佈不均勻的資料，單獨計算

先對key做一層hash，先將資料打散讓它的並行度變大，再彙集

(3)資料預處理;

5.平臺的優化方法

1.join 操作中，使用 map join 在 map 端就先進行 join ，免得到reduce 時卡住;

2.能先進行 group 操作的時候先進行 group 操作，把 key 先進行一次 reduce,之後再進行 count 或者 distinct count 操作;

3. 設定map端輸出、中間結果壓縮。

瀋陽性病醫院：http://www.120sysdyy.com/

瀋陽尖銳溼疣醫院：http://www.sdxb024.com/

大資料----“資料傾斜”的問題

大資料----“資料傾斜”的問題

Noip前的大抱佛腳----資料結構

快速傳輸大批量資料（tar+lz4+pv+ssh）

高德地圖大批量資料（上萬）畫歷史軌跡實現方案

在mysql中使用group by和order by取每個分組中日期最大一行資料

MySQL刪除大批量資料

js把頁面明細行資料多個欄位組成陣列，並獲取某個欄位值最大和其次大的資料賦值到文字框;

linux系統從百度網盤中拉大檔案資料

大屏資料視覺化示例

非洲最大的資料中心業務“待售”，那麼誰有興趣？

大檔案資料分片上傳簡單示例

Java 匯出大批量資料excel（百萬級）(轉載)

C程式設計——從鍵盤輸入多個數據，並輸出其中第二大的資料

伺服器之間如何跨國傳輸大檔案資料？

【樂調查】大+小資料結合，精準問卷調研樣本服務

oracle 匯入大批量資料的一些坑

讀取大檔案資料進入redis作為快取:贈(廣播變數)

Mysql資料庫大文字資料處理

【翻譯】2018年，20大Python資料科學庫都做了哪些更新？

sql 查詢最新的資料或某個最大值得資料

大資料----“資料傾斜”的問題

相關推薦