2.2 Hadoop下載與安裝
2.1 Hadoop下載與安裝
2.1.1 官網下載
開啟Apache Hadoop官方網址http://hadoop.apache.org/
單擊左側選單“Releases”將打開發行版頁面http://hadoop.apache.org/releases.html
單擊2.7.3版本下“binary”連結,將進入該版本的下載頁面
單擊最上方的建議連結:
We suggest the following mirror site for your download:
可以使用迅雷或QQ旋風等多執行緒下載工具來下載,支援斷點續傳。成功下載後得到hadoop-2.7.3.tar.gz壓縮檔案,204M。請檢查壓縮包是否204M,瀏覽器下載的話可能會中斷。
2.1.2 上傳至虛擬機器
通過ll或ls命令可以檢視到已經上傳到虛擬機器node1上的hadoop-2.7.3.tar.gz壓縮檔案
2.1.3 解壓縮
按照《1.7 目錄規劃》
通過下面命令直接將hadoop-2.7.3.tar.gz解壓縮到/opt目錄下
tar -zxvf hadoop-2.7.3.tar.gz -C /opt
[root@node1 ~]# tar -zxvf hadoop-2.7.3.tar.gz -C /opt
- 1
通過cd /opt/hadoop-2.7.3
命令切換到hadoop根目錄,然後通過ll
2.1.4 目錄結構分析
如上圖Hadoop的目錄結構:
- bin :Hadoop 最基本的管理指令碼和使用指令碼所在目錄,這些指令碼是sbin目錄下管理指令碼的基礎實現,使用者可以直接使用這些指令碼管理和使用Hadoop 。
- etc :Hadoop 配置檔案所在的目錄,包括core-site.xml 、hdfs-site.xml 、mapred-site.xml 等從Hadoop 1.0 繼承而來的配置檔案和yarn-site.xml 等Hadoop 2.0 新增的配置檔案。
- include :對外提供的程式設計庫標頭檔案(具體動態庫和靜態庫在lib 目錄中),這些標頭檔案均是用C++ 定義的,通常用於C++ 程式訪問HDFS 或者編寫MapReduce 程式。
- lib :該目錄包含了Hadoop 對外提供的程式設計動態庫和靜態庫,與include目錄中的標頭檔案結合使用。
- libexec :各個服務對應的shell 配置檔案所在目錄,可用於配置日誌輸出目錄、啟動引數(比如JVM 引數)等基本資訊。
- sbin :Hadoop 管理指令碼所在目錄,主要包含HDFS 和YARN 中各類服務的啟動/ 關閉指令碼。
- share :Hadoop 各個模組編譯後的jar 包所在目錄 。
2.1 Hadoop下載與安裝
2.1.1 官網下載
開啟Apache Hadoop官方網址http://hadoop.apache.org/
單擊左側選單“Releases”將打開發行版頁面http://hadoop.apache.org/releases.html
單擊2.7.3版本下“binary”連結,將進入該版本的下載頁面
單擊最上方的建議連結:
We suggest the following mirror site for your download:
http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
可以使用迅雷或QQ旋風等多執行緒下載工具來下載,支援斷點續傳。成功下載後得到hadoop-2.7.3.tar.gz壓縮檔案,204M。請檢查壓縮包是否204M,瀏覽器下載的話可能會中斷。
2.1.2 上傳至虛擬機器
通過ll或ls命令可以檢視到已經上傳到虛擬機器node1上的hadoop-2.7.3.tar.gz壓縮檔案
2.1.3 解壓縮
按照《1.7 目錄規劃》http://blog.csdn.net/chengyuqiang/article/details/71512953節規劃,需要將Hadoop安裝到/opt目錄下。
通過下面命令直接將hadoop-2.7.3.tar.gz解壓縮到/opt目錄下
tar -zxvf hadoop-2.7.3.tar.gz -C /opt
[root@node1 ~]# tar -zxvf hadoop-2.7.3.tar.gz -C /opt
- 1
通過cd /opt/hadoop-2.7.3
命令切換到hadoop根目錄,然後通過ll
命令檢視
2.1.4 目錄結構分析
如上圖Hadoop的目錄結構:
- bin :Hadoop 最基本的管理指令碼和使用指令碼所在目錄,這些指令碼是sbin目錄下管理指令碼的基礎實現,使用者可以直接使用這些指令碼管理和使用Hadoop 。
- etc :Hadoop 配置檔案所在的目錄,包括core-site.xml 、hdfs-site.xml 、mapred-site.xml 等從Hadoop 1.0 繼承而來的配置檔案和yarn-site.xml 等Hadoop 2.0 新增的配置檔案。
- include :對外提供的程式設計庫標頭檔案(具體動態庫和靜態庫在lib 目錄中),這些標頭檔案均是用C++ 定義的,通常用於C++ 程式訪問HDFS 或者編寫MapReduce 程式。
- lib :該目錄包含了Hadoop 對外提供的程式設計動態庫和靜態庫,與include目錄中的標頭檔案結合使用。
- libexec :各個服務對應的shell 配置檔案所在目錄,可用於配置日誌輸出目錄、啟動引數(比如JVM 引數)等基本資訊。
- sbin :Hadoop 管理指令碼所在目錄,主要包含HDFS 和YARN 中各類服務的啟動/ 關閉指令碼。
- share :Hadoop 各個模組編譯後的jar 包所在目錄 。