Hadoop之各程序與元件總結

阿新 • • 發佈：2019-01-13

1、hadoop通過一個jobtracker分派任務到一系列tasktracker來執行，tasktracker同時向jobtracker返回任務執行結果。

jobtracker對作業的輸入資料進行分片，然後為每個分片建立一個map任務，同時建立一定數量的reduce任務，並指派空閒的tasktracker來執行這些任務。

tasktracker從jobtracker處獲取任務jar包以及分片的輸入資料，然後新建jvm來執行，並定期反饋執行進度情況。

2、map任務就是進行原始資料的提取工作，提取資料後進行sufflix排序，排序後的資料作為reduce的輸入，然後經過reduce的統計計算得到最後結果。

3、hdfs對資料進行分塊，然後儲存在datanote裡，datanote向namenode報告自己儲存的檔案塊，客戶端通過訪問namenode來得知構成檔案的各個資料塊的具體存放datanote，進而從datanote中讀取整個檔案。

4、hadoop作業的輸入資料必須在作業執行前是固定的，然後才能進行資料的分片，所以不能勝任增量的流式資料處理作業。

5、mapreduce本身需要編寫java程式碼，優化起來也比較複雜，而pig可以讓使用者通過指令碼語句Latin來操作資料，並將指令碼語句轉換成mapreduce來在hadoop中執行，pig並不要求被操作的資料滿足關係資料庫模式。

6、hive構建於hadoop的資料倉庫，能夠對儲存在HDFS中的資料增加元資料，從而提供SQL風格的資料操作，再將操作翻譯成mapreduce來在hadoop中執行。

hive與pig的主要區別是hive能提供SQL風格資料庫表操作，而pig使用自定義的Latin指令碼來直接操作資料，pig更輕量。

7、hbase是一個按列儲存的分散式資料庫，它的表不滿足關係資料庫模式且不支援SQL查詢，可以將資料儲存在HDFS上。

hbase與hive的主要區別，一是hbase是一個分散式資料庫易於水平擴充套件，而hive不是。

二是hbase的資料按列儲存因而能夠靈活的隨機讀寫，而hive本身不改變資料儲存格式，只給資料增加了表元資料從而支援關係資料庫表操作。

8、zookeeper封裝了一套分散式服務所需使用的通用機制，自身的實現是通過多臺伺服器冗餘來實現高可用，能夠自動選舉出領導者來服務於使用者的寫請求，並自動同步到半數的跟隨者，領導者和跟隨者都可以服務於使用者讀請求。

應用場景包括：高可用分散式配置儲存、分散式物件狀態更新訂閱通知、分散式鎖、分散式叢集領導者選舉。