Hadoop的安裝及執行配置
尚矽谷大資料技術之Hadoop(入門)
講師:大海哥
官網:www.atguigu.com
V1.2
一、從Hadoop框架討論大資料生態
1.1 Hadoop是什麼
1)Hadoop是一個由Apache基金會所開發的分散式系統基礎架構
2)主要解決,海量資料的儲存和海量資料的分析計算問題。
3)廣義上來說,HADOOP通常是指一個更廣泛的概念——HADOOP生態圈
大資料叢集.jpg
1.2 Hadoop發展歷史
1.3 Hadoop三大發行版本:
Apache、Cloudera、Hortonworks
1)Apache版本最原始(最基礎)的版本,對於入門學習最好。
2)Cloudera在大型網際網路企業中用的較多。
3)Hortonworks文件較好。
1.4 Hadoop的優勢
1)高可靠性:因為Hadoop假設計算元素和儲存會出現故障,因為它維護多個工作資料副本,在出現故障時可以對失敗的節點重新分佈處理。
2)高擴充套件性:在叢集間分配任務資料,可方便的擴充套件數以千計的節點。
3)高效性:在MapReduce的思想下,Hadoop是並行工作的,以加快任務處理速度。
4)高容錯性:自動儲存多份副本資料,並且能夠自動將失敗的任務重新分配。
1.5 Hadoop組成
概述
1)Hadoop HDFS:一個高可靠、高吞吐量的分散式檔案系統。
2)Hadoop MapReduce:一個分散式的離線平行計算框架。
3)Hadoop YARN:作業排程與叢集資源管理的框架。
4)Hadoop Common:支援其他模組的工具模組。
Hadoop組成.pptx
1.5.1 HDFS架構概述
1)NameNode(nn):儲存檔案的元資料,如檔名,檔案目錄結構,檔案屬性(生成時間、副本數、檔案許可權),以及每個檔案的塊列表和塊所在的DataNode等。
2)DataNode(dn):在本地檔案系統儲存檔案塊資料,以及塊資料的校驗和。
3)Secondary NameNode(2nn):用來監控HDFS狀態的輔助後臺程式,每隔一段時間獲取HDFS元資料的快照。
NameNode1.png
NameNode2.png
DataNode1.png
DataNode2.png
1.5.2 YARN架構概述
1)ResourceManager(rm):
處理客戶端請求、啟動/監控ApplicationMaster、監控NodeManager、資源分配與排程;
2)NodeManager(nm):
單個節點上的資源管理、處理來自ResourceManager的命令、處理來自ApplicationMaster的命令;
3)ApplicationMaster:
資料切分、為應用程式申請資源,並分配給內部任務、任務監控與容錯。
4)Container:
對任務執行環境的抽象,封裝了CPU、記憶體等多維資源以及環境變數、啟動命令等任務執行相關的資訊。
1.5.3 MapReduce架構概述
MapReduce將計算過程分為兩個階段:Map和Reduce
1)Map階段並行處理輸入資料
2)Reduce階段對Map結果進行彙總
1.6 大資料技術生態體系
大資料技術生態體系.pptx
1.7 推薦系統框架圖
推薦系統框架圖.pptx
二、Hadoop執行環境搭建
2.1 虛擬機器網路模式設定為NAT
尚矽谷大資料技術之虛擬機器網路模式設定為NAT.doc
2.2 克隆虛擬機器
尚矽谷大資料技術之克隆虛擬機器.doc
2.3 修改為靜態ip
尚矽谷大資料技術之修改為靜態ip.doc
2.4 修改主機名
尚矽谷大資料技術之修改主機名.doc
2.5 關閉防火牆
1)檢視防火牆開機啟動狀態
chkconfig iptables --list
2)關閉防火牆
chkconfig iptables off
2.6 在opt目錄下建立檔案
尚矽谷大資料技術之在opt目錄下建立檔案.doc
2.7 安裝jdk
1)解除安裝現有jdk
2)用filezilla工具將jdk、Hadoop-2.7.2.tar.gz匯入到opt目錄下面的software資料夾下面
3)在linux系統下的opt目錄中檢視軟體包是否匯入成功。
4)解壓jdk到/opt/module目錄下
5)配置jdk環境變數
(1)先獲取jdk路徑:
(2)開啟/etc/profile檔案:
(3)儲存後退出:
:wq
(4)讓修改後的檔案生效:
(5)重啟(如果java –version可以用就不用重啟):
6)測試jdk安裝成功
2.8 安裝Hadoop
1)進入到Hadoop安裝包路徑下:
2)解壓安裝檔案到/opt/module下面
3)檢視是否解壓成功
4)