Hadoop叢集啟動、初體驗
1. 啟動方式
要啟動Hadoop叢集,需要啟動HDFS和YARN兩個叢集。
注意:首次啟動HDFS時,必須對其進行格式化操作。本質上是一些清理和準備工作,因為此時的HDFS在物理上還是不存在的。
hdfs namenode–format或者hadoop namenode –format
1.1. 單節點逐個啟動
在主節點上使用以下命令啟動HDFS NameNode:
hadoop-daemon.sh start namenode
在每個從節點上使用以下命令啟動HDFS DataNode:
hadoop-daemon.sh start datanode
在主節點上使用以下命令啟動YARN ResourceManager:
yarn-daemon.sh start resourcemanager
在每個從節點上使用以下命令啟動YARN nodemanager:
yarn-daemon.sh start nodemanager
以上指令碼位於$HADOOP_PREFIX/sbin/目錄下。如果想要停止某個節點上某個角色,只需要把命令中的start改為stop即可。
1.2. 指令碼一鍵啟動
如果配置了etc/hadoop/slaves和ssh免密登入,則可以使用程式指令碼啟動所有Hadoop兩個叢集的相關程序,在主節點所設定的機器上執行。
hdfs:$HADOOP_PREFIX/sbin/start-dfs.sh
yarn: $HADOOP_PREFIX/sbin/start-yarn.sh
停止叢集:stop-dfs.sh、stop-yarn.sh
2. 叢集web-ui
一旦Hadoop叢集啟動並執行,可以通過web-ui進行叢集檢視,如下所述:
NameNode http://nn_host:port/ 預設50070.
ResourceManager http://rm_host:port/ 預設 8088.
3. Hadoop初體驗3.1. HDFS使用
從Linux本地上傳一個文字檔案到hdfs的/test/input目錄下
hadoop fs -mkdir -p /wordcount/input
hadoop fs -put /root/somewords.txt /test/input
3.2. 執行mapreduce程式
在Hadoop安裝包的hadoop-2.7.4/share/hadoop/mapreduce下有官方自帶的mapreduce程式。我們可以使用如下的命令進行執行測試。
示例程式jar:
hadoop-mapreduce-examples-2.7.4.jar
計算圓周率:
hadoop jar hadoop-mapreduce-examples-2.7.4.jar pi 20 50
關於圓周率的估算,感興趣的可以查詢資料Monte Carlo方法來計算Pi值。