Hadoop系列之hadoop環境搭建本地模式
1.1 Hadoop環境搭建
Hadoop 的環境可以有多種方式,比如本地模式(standalone)、偽分散式、完全分散式以及 HA 模式。參考:
1.1.1Hadoop安裝包
核心配置檔案
Hadoop 主要有四個核心配置檔案,如下:
- core-site.xml:配置通用屬性
- hdfs-site.xml:配置 HDFS 的屬性
- mapred-site.xml:配置 MapReduce 的屬性
- yarn-site.xml:配置 YARN 的屬性
本地模式(Local/Standalone)
也稱為“獨立模式”。沒有任何守護程序,所有的程式都執行在同一個 JVM 上。在本地模式下除錯 MR 程式非常方便。所以一般該模式主要是在學習或者開發階段除錯使用 。
搭建步驟
- 將 hadoop-2.7.3.tar.gz 上傳到/root 目錄下; 使用put命令上傳,預設會上傳到opt資料夾中
- 解壓 進入opt資料夾中進行解壓
[[email protected] ~]# cd /opt/
[[email protected] opt]# tar zxf ~/hadoop-2.7.3.tar.gz
hadoop目錄介紹[[email protected] opt]# ls -lrt hadoop-2.7.3/ total 108
drwxr-xr-x 4 root root 31 Aug 18 2016 share
drwxr-xr-x 2 root root 4096 Aug 18 2016 sbin
-rw-r--r-- 1 root root 1366 Aug 18 2016 README.txt
-rw-r--r-- 1 root root 14978 Aug 18 2016 NOTICE.txt
-rw-r--r-- 1 root root 84854 Aug 18 2016 LICENSE.txt
drwxr-xr-x 2 root root 239 Aug 18 2016 libexec
drwxr-xr-x 3 root root 20 Aug 18 2016 lib
drwxr-xr-x 2 root root 106 Aug 18 2016 include
drwxr-xr-x 3 root root 20 Aug 18 2016 etc
drwxr-xr-x 2 root root 194 Aug 18 2016 bin [[email protected] opt]#
share:hadoop 各個模組的 jar 包、原始碼以
sbin:hadoop 的各種運維命令
bin:hadoop 的執行命令
libexec:shell 配置檔案
lib:本地 so 庫
include:標頭檔案
etc:hadoop 的各類 xml 配置檔案
本地執行 wordcount
WordCount 是 Hadoop 自帶的一個統計單次個數的 MapReduce 程式。
第一步:準備好需要統計的檔案
這裡直接用 etc/hadoop 下面的配置檔案。在hadoop-2.7.3資料夾中執行以下命令
[[email protected] hadoop-2.7.3]# mkdir input //建立存放統計檔案的資料夾
[[email protected] hadoop-2.7.3]# cp etc/hadoop/*.xml input //將需要統計分析的檔案拷貝到input資料夾中
第二步:執行 wordcount 在hadoop-2.7.3資料夾中執行以下命令
[[email protected] hadoop-2.7.3]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'config[a-z.]+'
第三步:檢視統計結果 在hadoop-2.7.3資料夾中執行以下命令
[[email protected] hadoop-2.7.3]# cat output/*
17 configuration
3 configuration.xsl
1 configured
[[email protected] hadoop-2.7.3]#