hadoop（一）入門

阿新 • • 發佈：2018-12-27

hadoop入門(一)

一、概述
1.什麼是hadoop
hadoop不僅是一個用於儲存分散式檔案系統,還是設計用來在有通用計算裝置組成的大型叢集上執行的分散式應用的基礎框架。
hadoop框架最核心的設計是mapreduce和HDFS
1.2為什麼要選擇hadoop
1)擴容：能可靠的處理和儲存PB級資料
2)成本：可以通過普通機器組成伺服器群來分發和處理資料,這些伺服器總計可大上千節點
3)高效：通過分發資料,hadoop可以並行處理這些資料，使它們特別快速
4)可靠：hadoop可以通過機器感知進行資料備份，並且任務失敗後可以重新計算
12.2使用場景
主要用於海量資料分析
二、分散式檔案系統HDFS
1.1Namedata:名稱節點
1)維護HDFS檔案系統,是HDFS的主節點
2)接收客戶端的請求:上傳檔案、下載檔案、建立檔案等等
3)記錄客戶端操作的日誌（edits檔案），儲存HDFS最新狀態
-edits檔案儲存了自最後一次檢查點之前針對HDFS的所有操作，如：增加檔案，重命名，刪除檔案
-儲存目錄： $H$

A D O O P H O M E /

t m p / d f s / n a m

e / c u r r e n t − 可以使用 h d f s o v e − i 命令將日志（二進制）輸出為 X M L 文件 4 ）維護文件元信息，將內存中不常用的元信息存儲到硬盤上（ f s i m a g e 文件） − f s i m a g e 是 H D F S 文件系存於元數據的檢查點，裡面記錄了自最後一次檢查點之前 H D F S 中多有目錄和文件的序列化信息 − 保存目錄： HADOOP_HOME/tmp/dfs/name/current -可以使用hdfs ove -i 命令將日誌（二進位制）輸出為XML檔案 4）維護檔案元資訊，將記憶體中不常用的元資訊儲存到硬碟上（fsimage檔案） -fsimage是HDFS檔案系存於元資料的檢查點，裡面記錄了自最後一次檢查點之前HDFS中多有目錄和檔案的序列化資訊 -儲存目錄：

H A D O O P_{H} O M E / t m p / d f s / n a m e / c u r r e n t - 可 以 使 用 h d f s o v e - i 命 令 將 日 志 （ 二 進 制 ） 輸 出 為 X M L 文 件 4 ） 維 護 文 件 元 信 息 ， 將 內 存 中 不 常 用 的 元 信 息 存 儲 到 硬 盤 上 （ f s i m a g e 文 件 ） - f s i m a g e 是 H D F S 文 件 系 存 於 元 數 據 的 檢 查 點 ， 裡 面 記 錄 了 自 最 後 一 次 檢 查 點 之 前 H D F S 中 多 有 目 錄 和 文 件 的 序 列 化 信 息 - 保 存 目 錄 ：

HADOOP_HOME/tmp/dfs/name/current
-可以使用hdfs oiv -i 命令將日誌（二進位制）輸出為文字
1.2DataNode:資料節點
1）以資料塊為單位，儲存資料
hadoop1.0的資料塊單位為64M
hadoop2.0的資料塊單位為128M
2）在全分散式模式下，至少兩個DataNode節點
3）資料儲存的目錄:由hadoop.tmp.dir決定
1.2SecondayNameNode:第二人稱節點
1.主要作用是日誌合併
2.日誌合併的過程
1.3HDFS存在的問題
1.NameNode單點故障，難以應用二線上場景
解決方案：hadoop1.0沒有解決方法
hadoop2.0使用Zookeeper實現NameNod的HA功能
2.NameNode壓力過大，且記憶體受限，影響系統擴充套件性
解決方案
hadoop1.0 中沒有解決方案
hadoop2.0 使用NameNode的聯盟實現其水平擴充套件
1.4YARN：分散式計算(MapReduce)
ResourceManager(資源管理器)
1.接收客戶端的請求：執行任務
2.分配資源
3.分配任務
NodeManager(節點管理器:執行任務MapReduce)
1.從Data上獲取資料，執行任務

hadoop（一）入門

hadoop（一）入門

mybatis學習（一）----入門

jQuery EasyUI快速入門實戰教程（一）-入門

Hadoop（一）之初識大數據與Hadoop

Hadoop（一）之初識大數據與Hadoop【轉載】

Orleans 初接觸（一）入門例子

springboot整合Mybatis（一）——入門

Struts2（一）— 入門

大數據入門第十七天——storm上遊數據源之kafka詳解（一）入門

大數據入門第十九天——推薦系統與mahout（一）入門與概述

微信公眾號開發（一）--入門

使用Formik輕松開發更高質量的React表單（一）入門

Spring boot（一）----入門篇

關於Java基礎的複習總結（一）入門篇

MyBatis學習（一）--入門

RxJava 2.x 教程及原始碼揭祕（一）入門理解及基本操作符

SpringMVC詳解（一）------入門例項

Putty基礎教程之（一）.入門命令學習及編寫HTML

Hadoop（一）Hadoop的簡介與安裝

SpringBoot學習記錄（一）——入門篇

hadoop（一）入門

相關推薦