1. 程式人生 > 實用技巧 >HDFS和MR的配置和使用

HDFS和MR的配置和使用

一、分散式HDFS的安裝和啟動

①在$HADOOP_HOME/etc/hadoop/core-site.xml檔案

<configuration>
<property>
<name>fs.defaultFS</name>
<!-- 告知NN在哪個機器,NN使用哪個埠號接收客戶端和DN的RPC請求. -->
<value>hdfs://主機名:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
</configuration>

②格式化Namenode(只需要格式化一次)

命令:hadoop namenode -format

目的: ①生成/opt/module/hadoop-2.7.2/data/tmp目錄

②在目錄中生成fsimage_0000000000000000000檔案

③啟動Namenode

hadoop-daemon.sh start namenode

啟動datanode

hadoop-daemon.sh start datanode

④檢視

Jps

通過瀏覽器訪問 http://nn所在的主機名或ip:50070

如果NN和DN都在一臺機器,且只有一個DN節點,稱為偽分散式

二、在YARN上執行MR

①修改 $HADOOP_HOME/etc/hadoop/mapred-site.xml檔案

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

②啟動YARN

配置RM到底在哪個機器啟動

修改 $HADOOP_HOME/etc/hadoop/yarn-site.xml檔案

<property>
<name>yarn.resourcemanager.hostname</name>
<value>主機名</value>
</property>
<!-- reducer獲取資料的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

③啟動RM,NM

yarn-daemon.sh start resourcemanager

yarn-daemon.sh start nodemanager

④檢視

jps

http://RM所執行的機器主機名/ip:8088

三、提交任務

hadoop jar jar包 主類名 引數{多個輸入目錄,一個輸出目錄}

輸入目錄中必須全部是檔案!

輸出目錄必須不存在!