學習hadoop需要具備基礎知識
阿新 • • 發佈:2019-02-16
1、瞭解hadoop搭建的三種方式(單機模式、偽分佈模式和分散式模式);
2、掌握搭建偽分散式以及完全分散式叢集;
3、認識hadoop生態系統,瞭解MapReduce分散式計算框架、Yarn叢集資源管理和排程平臺、hdfs分散式檔案系統、hive資料倉庫、HBase實時分散式資料庫、Flume日誌收集工具、sqoop資料庫ETL工具、zookeeper分散式協作服務、Mahout資料探勘庫等;
4、學習MapReduce。MapReduce作為hadoop核心內容,要先易後難,首先了解Mapper、Reducer、Configuration、job等這些類,熟悉MapReduce流程圖,然後寫簡單的單詞統計程式碼,整體上對MapReduce認識,之後學習MapReduce執行機制,熟練掌握MapReduce輸入格式,MapReduce輸出格式,以及MapReduce優化;
5、學習hadoop另一個核心內容HDFS。首先明白什麼是hdfs,然後再分析hdfs的優點,然後再瞭解Hdfs的缺點有哪些,HDFS是如何儲存資料的,採用什麼樣的架構,我們如何實現讀取和寫入HDFS中的檔案,以及瞭解HDFS副本存放策略,同時熟練掌握HDFS的shell訪問和java訪問;
6、學習hadoop另一個核心內容Yarn。首先要了解Yarn是什麼,為什麼使用Yarn,Yarn的構架,Yarn的原理。