1. 程式人生 > 其它 >HADOOP 優化(4):MapReduce生產經驗

HADOOP 優化(4):MapReduce生產經驗

8.1 MapReduce跑的慢的原因

MapReduce程式效率的瓶頸在於兩點:

1)計算機效能

CPU、記憶體、磁碟、網路

2I/O操作優化

(1)資料傾斜

(2)Map執行時間太長,導致Reduce等待過久

(3)小檔案過多

8.2 MapReduce常用調優引數

8.3 MapReduce資料傾斜問題

1)資料傾斜現象

資料頻率傾斜——某一個區域的資料量要遠遠大於其他區域。

資料大小傾斜——部分記錄的大小遠遠大於平均值。

2)減少資料傾斜的方法

1)首先檢查是否空值過多造成的資料傾斜

生產環境,可以直接過濾掉空值;如果想保留空值,就自定義分割槽,將空值加隨機數打散。最後再二次聚合。

2)能在map階段提前處理,最好先在Map階段處理。如:CombinerMapJoin

3)設定多個reduce個數

本文來自部落格園,作者:秋華,轉載請註明原文連結:https://www.cnblogs.com/qiu-hua/p/15229359.html