1. 程式人生 > 其它 >【Hadoop學習】補充:優化、新特性

【Hadoop學習】補充:優化、新特性

一、資料壓縮

1、概述

原則:IO密集而不是計算密集的job

壓縮演算法選擇

2、壓縮位置選擇

通過引數進行配置

3、壓縮例項:

資料流的壓縮和解壓縮

Map輸出端採用壓縮

Reduce輸出端採用壓縮

二、企業優化

1、概述

從六個方面考慮:資料輸入、Map階段、Reduce階段、IO傳輸、資料傾斜問題和常用的調優引數

資料輸入:合併小檔案、Combine格式輸入

Map階段:減少溢寫及合併次數

Reduce階段:合理設定Map、Reduce(規避使用),二者需要共存,合理設定reduce的buffer

IO傳輸:資料壓縮、使用sequence二進位制檔案

資料傾斜問題(大小傾斜/頻率傾斜):抽樣、自定義分割槽、combine

調優引數:資源相關引數(mapred-default.xml)、yarn相關的引數(yarn-default.xml)、容錯相關引數

2、小檔案優化

三、Hadoop新特性

1、叢集間資料拷貝(scp、distcp遞迴複製)

2、小檔案存檔

啟動yarn,使用命令bin/hadoop archive歸檔和解歸檔

3、回收站

core-site.xml中配置fs.trash.interval

路徑/user/atguigu/.Trash/….

清空回收站:hadoop fs -expunge

4、多NN的HA和糾刪碼

執行多個備用NameNode

四、HA高可用

1、概述

HA(High Availablity)

雙NameNode消除單點故障

故障轉移機制

2、叢集配置

ZK叢集、HDFS叢集、YARN叢集、

3、HDFS Federation

單個NameNode的HDFS架構,因此整個HDFS檔案系統的吞吐量受限於單個NameNode的吞吐量,受到Namespace(名稱空間)的限制