HADOOP 優化(4):MapReduce生產經驗
阿新 • • 發佈:2021-09-05
8.1 MapReduce跑的慢的原因
MapReduce程式效率的瓶頸在於兩點:
1)計算機效能
CPU、記憶體、磁碟、網路
2)I/O操作優化
(1)資料傾斜
(2)Map執行時間太長,導致Reduce等待過久
(3)小檔案過多
8.2 MapReduce常用調優引數
8.3 MapReduce資料傾斜問題
1)資料傾斜現象
資料頻率傾斜——某一個區域的資料量要遠遠大於其他區域。
資料大小傾斜——部分記錄的大小遠遠大於平均值。
2)減少資料傾斜的方法
(1)首先檢查是否空值過多造成的資料傾斜
生產環境,可以直接過濾掉空值;如果想保留空值,就自定義分割槽,將空值加隨機數打散。最後再二次聚合。
(2)能在map階段提前處理,最好先在Map階段處理。如:Combiner、MapJoin
(3)設定多個reduce個數
本文來自部落格園,作者:秋華,轉載請註明原文連結:https://www.cnblogs.com/qiu-hua/p/15229359.html