HDFS和MR的配置和使用
阿新 • • 發佈:2020-07-05
一、分散式HDFS的安裝和啟動
①在$HADOOP_HOME/etc/hadoop/core-site.xml
檔案
<configuration>
<property>
<name>fs.defaultFS</name>
<!-- 告知NN在哪個機器,NN使用哪個埠號接收客戶端和DN的RPC請求. -->
<value>hdfs://主機名:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
</configuration>
②格式化Namenode(只需要格式化一次)
命令:hadoop namenode -format
目的: ①生成/opt/module/hadoop-2.7.2/data/tmp
目錄
②在目錄中生成fsimage_0000000000000000000檔案
③啟動Namenode
hadoop-daemon.sh start namenode
啟動datanode
hadoop-daemon.sh start datanode
④檢視
Jps
通過瀏覽器訪問 http://nn所在的主機名或ip:50070
如果NN和DN都在一臺機器,且只有一個DN節點,稱為偽分散式
二、在YARN上執行MR
①修改 $HADOOP_HOME/etc/hadoop/mapred-site.xml
檔案
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
②啟動YARN
配置RM到底在哪個機器啟動
修改 $HADOOP_HOME/etc/hadoop/yarn-site.xml
檔案
<property>
<name>yarn.resourcemanager.hostname</name>
<value>主機名</value>
</property>
<!-- reducer獲取資料的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
③啟動RM,NM
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager
④檢視
jps
http://RM所執行的機器主機名/ip:8088
三、提交任務
hadoop jar jar包 主類名 引數{多個輸入目錄,一個輸出目錄}
輸入目錄中必須全部是檔案!
輸出目錄必須不存在!