Hadoop 四種環境部署（二）

阿新 • • 發佈：2019-02-17

四種部署模式

本地模式,偽分散式模式,完全分散式模式,HA完全分散式模式

區分的依據是NameNode、DataNode、ResourceManager、NodeManager等模組執行在幾個JVM程序、幾個機器。

模式名稱	各個模組佔用的JVM程序數	各個模組執行在幾個機器數上
本地模式	1	1
偽分散式	N	1
分散式	N	N
HA分散式	N	N

1.本地模式

所有的模組都執行在一個JVM程序中,使用的不是HDFS而是本地檔案系統.下載的安裝包不進行任何配置,預設就是本地模式

安裝前確認已經安裝了JDK
echo $JAVA_HOME
解壓檔案到指定目錄

這樣我們就完成了本地模式的搭建.我們可以執行一下hadoop自帶的wordcount例子來實驗一下

首先,準備一個輸入檔案word_count.input,內容可以如下

hadoop mapreduce hive
hbase spark storm
sqoop hadoop hive
spark hadoop

執行wordcount demo

[hadoop@bigdata-senior01 hadoopstandalone]$ ${HADOOP_HOME}/bin/hadoop jar ${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1 
.1.jar wordcount ~/word_count.input ~/word_count_output

執行完畢後可以看到輸入結果是一個目錄,目錄下有兩個檔案:_SUCCESS和part-r-00000,其中part-r-00000是結果輸入,_SUCCESS表示任務執行成功

2.偽分散式模式

1.配置hadoop-env.sh,mapred-env.sh,yarn-env.sh中的JAVA_HOME引數

export JAVA_HOME=${你的JDK目錄}

2.配置core-site.xml

<property>
    <name>fs.defaultFS</name 
>
    <value>hdfs://localhost:8020</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/export/hadoop/tmp</value>
</property>

fs.defaultFS配置的是HDFS的地址
hadoop.tmp.dir配置的是NameNode資料儲存的目錄

hadoop.tmp.dir預設地址是/tmp/hadoop-${user.name},每次系統重啟後,tmp目錄下的資料將會被清空

3.格式化HDFS並重啟

配置hdfs-site.xml

<property>
   <name>dfs.replication</name>
   <value>1</value>
</property>

這裡的dfs.replication指的是HDFS儲存時的備份數量

格式化HDFS

${HADOOP_HOME}/bin/hdfs namenode -format

格式化是對HDFS這個分散式檔案系統中的DataNode進行分塊，統計所有分塊後的初始元資料的儲存在NameNode中

格式化後可以檢視指定的hadoop.tmp.dir目錄下是否有dfs目錄

4.啟動NameNode和DataNode

[root@izj6cj3wje0m1jxumjkuelz ~]# hdfs --daemon start namenode
[root@izj6cj3wje0m1jxumjkuelz ~]# hdfs --daemon start secondarynamenode
[root@izj6cj3wje0m1jxumjkuelz ~]# hdfs --daemon start datanode
[root@izj6cj3wje0m1jxumjkuelz ~]# jps
16936 NameNode
3034 Bootstrap
17181 Jps
17150 SecondaryNameNode
17038 DataNode

5.測試在HDFS上建立目錄、上傳和下載檔案

首先建立一個test目錄

[root@izj6cj3wje0m1jxumjkuelz ~]# hdfs dfs -mkdir /test
[root@izj6cj3wje0m1jxumjkuelz ~]# hdfs dfs -ls /
Found 5 items
drwxr-xr-x   - root supergroup          0 2018-08-13 20:51 /demo
drwxr-xr-x   - root supergroup          0 2018-08-12 11:06 /demo1
drwxr-xr-x   - root supergroup          0 2018-08-13 20:52 /test
drwx------   - root supergroup          0 2018-08-12 11:20 /tmp
drwxr-xr-x   - root supergroup          0 2018-08-12 11:18 /wordcountdemo

上傳檔案到HDFS上

[root@izj6cj3wje0m1jxumjkuelz ~]# hdfs dfs -put ~/word_count.input /test
[root@izj6cj3wje0m1jxumjkuelz ~]# hdfs dfs -ls /test
Found 1 items
-rw-r--r--   1 root supergroup         71 2018-08-13 20:53 /test/word_count.input

下載檔案到本地目錄

[root@izj6cj3wje0m1jxumjkuelz ~]# hdfs dfs -get /test/word_count.input tmp/
[root@izj6cj3wje0m1jxumjkuelz ~]# ls tmp/
word_count.input

6.配置和啟動Yarn

首先配置mapred-site.xml,指定mapreduce執行在yarn框架上

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置yarn-site.xml

<!--配置yarn的混選方式,選擇為預設混選演算法-->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<!--指定resourcemanager執行在哪個節點上-->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
</property>
<!-- Site specific YARN configuration properties -->
<!--開啟日誌聚集-->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
 </property>
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>106800</value>
 </property>

啟動ResourceManager

[root@izj6cj3wje0m1jxumjkuelz etc]# yarn --daemon start resourcemanager
[root@izj6cj3wje0m1jxumjkuelz etc]# yarn --daemon start nodemanager
[root@izj6cj3wje0m1jxumjkuelz etc]# jps
18401 NodeManager
18515 Jps
16936 NameNode
3034 Bootstrap
17979 ResourceManager
17150 SecondaryNameNode
17038 DataNode

開啟歷史服務

Hadoop開啟歷史服務可以在web頁面上檢視Yarn上執行job情況的詳細資訊。可以通過歷史伺服器檢視已經執行完的Mapreduce作業記錄，比如用了多少個Map、用了多少個Reduce、作業提交時間、作業啟動時間、作業完成時間等資訊

[root@izj6cj3wje0m1jxumjkuelz etc]# mapred --daemon start historyserver

開啟日誌聚集

在yarn-site.xml中配置

<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
 </property>
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>106800</value>
 </property>

yarn.log-aggregation-enable:是否啟用日誌聚集功能。

yarn.log-aggregation.retain-seconds：設定日誌保留時間，單位是秒

Hadoop 四種環境部署（二）

四種部署模式本地模式,偽分散式模式,完全分散式模式,HA完全分散式模式區分的依據是NameNode、DataNode、ResourceManager、NodeManager等模組執行在幾個JVM程序、幾個機器。模式名稱各個模組佔用的J

Hadoop HA + HBase環境搭建（二）————HBase環境搭建

property hadoop zookeeper conf ado 文件 ice mes root HBase配置（只需要做一處修改）　　修改HBase的 hbase-site.xml 配置文件種的一項　 <property>

vue2.0 + webpack+axios+elementUi+vue-router+vuex 搭建後臺管理系統環境部署（二）

前言最近公司專案需要做一個小型的填報的錄入系統，根據業務的具體分析，採用了基於vue2.0 + webpack+axios+elementUi+vue-router+vuex全家桶的技術棧構建錄入系統，同時也作為學習vue全家桶技術棧的一個學習記錄。專案初始化第一

《初學者Ｃ５１自學筆記》之定時器四種工作方式（二）

1、方式0 ：方式0為13位計數，由TL0的低5位（高3位未用）和TH0的8位組成。TL0的低5位溢位時向TH0進位，TH0溢位時，置位TCON中的TF0標誌，向CPU發出中斷請求。一共１３位，空著的３位忽略不用管，ＴＬ０一直加１，直到為１１１１１時再加１會溢位

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。

centos 失敗 sco pan html top n 而且 div href Centos7出現異常：Failed to start LSB: Bring up/down networking. 按照《Kafka：ZK+Kafka+Spark Streaming集群環

Kubernetes部署（二）：系統環境初始化

系統環境初始化架構設計 1.目錄結構所有檔案均存放在/data/kubernetes目錄下 [[email protected]@node-01 ~]# tree -L 1 /data/kubernetes/ /data/kubernetes/ ├── bin #二進位制

Hadoop+spark+jupyter環境搭建（三）：Pyspark+jupyter部署在Linux

Hadoop+spark+jupyter環境搭建順序請參照：我們已經實現了Spark on Yarn的搭建，但我們還希望有一個友好的開發介面，也便於展示成果，因此我們選擇了jupyter。他的本質就是一個 web app，也支援多種語言，完全滿足我們的要求。1.安裝

大資料Hadoop叢集環境搭建（二）

第一部分 Linux環境安裝一、Vmware網路模式介紹參考：http://blog.csdn.net/collection4u/article/details/14127671 二、Linux環境VMware14與CenterOs7安裝版本參考：https://blo

Hadoop分散式環境搭建（二）

Hadoop偽分散式環境搭建（二）　安裝Hadoop 1. 下載hadoop壓縮包 2. 解壓 cd /usr/local sudo tar -vxzf hadoop-2.

基於Hadoop生態圈的資料倉庫實踐 —— 環境搭建（二）

二、安裝Hadoop及其所需的服務 1. CDH安裝概述 CDH的全稱是Cloudera's Distribution Including Apache Hadoop，是Cloudera公司的Hadoop分發版本。有三種方式安裝CDH： . Path A - 通過Cloud

基於centos6的mysql5.7.13主從部署（二）

linux mysql主從部署基於centos6的mysql5.7.13主從部署（二）一、部署主mysql說明：mysql1是主機，mysql2是備機。創建庫[[email protected]/* */ ~]# mysql -uroot -p123456mysql> create da

jenkins實戰之jenkins安裝部署（二）

自動化運維上一小節介紹了Jenkins安裝（Linux/uninx平臺）,這節我們講講Jenkins界面操作（包括系統設置，工具安裝，插件管理，系統升級，安全設置等等操作）；登錄jenkins首頁，分別有以下選項欄，從左側看起，點擊Jenkins系統管理我們會看到右側list欄，內

Spring Data 開發環境搭建（二）

是不是 lns utf-8 void ext for 實體類 connect domain 首先咱們先創建一個maven工程在pom.xml加入以下依賴  <dependency> <

服務器運行環境部署（PHP）

雲服務 amp ges 服務器 mage mysq lam 騰訊雲 href 1.使用的是騰訊雲服務器，系統為centOS： 2.LAMP環境配置查看：https://cloud.tencent.com/document/product/213/8043； 3.mys

Appium python自動化測試系列之appium環境搭建（二）

ftp 自動化手動文件搭建環境做到安裝python reg 成員 ?2.1 基礎環境搭建當我們學習新的一項技術開始基本都是從環境搭建開始，本書除了第一章節也是的，如果你連最基礎的環境都沒有那麽我們也沒必要去說太多，大概介紹一下： 1、因為appium是支持and

一起寫框架-MVC框架-基礎功能-環境搭建（二）

utils src 編寫 con eclipse開發 aaa res text web測試實現功能搭建Eclipse開發環境 1.了解Eclipse工具普通項目是怎樣關聯依賴項目的 2.了解Eclipse工具WEB項目是怎樣關聯依賴項目的實現步驟 1. 創建一個Jav

Centos7 zabbix3.4.6的安裝部署（二）

pos gpo 監控服務器技術分享 color conf blog sys nbsp 接著安裝zabbix客戶端直接安裝在服務器上監控服務器 ip 192.168.161.25 yum -y install zabbix-agent #通過Yum安裝zabbix

springboot熱部署（二）——springboot熱部署與發布

延遲標簽頁 tools settings 通過選擇 auto tex pid 一、實現的方式概述　　　　註意以下的熱部署方式在IDEA是默認沒有打開自動編譯的，手動編譯需要快捷鍵（Ctrl+Shift+F9），自動編譯的修改配置如下：(註意刷新不要太快，會有1-

LVS+keepalived高可用負載均衡集群部署（二）---LAMP網站服務器與LVS服務器

虛擬機l 系統環境： RHEL7 l 硬件環境：虛擬機l 項目描述：為解決網站訪問壓力大的問題，需要搭建高可用、負載均衡的 web集群。 l 架構說明：整個服務架構采用功能分離的方式部署。後端采用2臺mysql 數據庫，實現主從結構以及讀寫分離。中間LAMP網站服務器共有2臺，前端 2臺LVS服務

xtrabackup安裝部署（二）

最新生成完全操作 amp 是否 net end mkdir 在官網中，復制相關鏈接下載最新版本（建議使用當前發布版本前６個月左右的穩定版本） https://www.percona.com/downloads/XtraBackup/LATEST/ 1、下載和安裝

Hadoop 四種環境部署 （二）

1.本地模式

2.偽分散式模式

相關推薦

Hadoop 四種環境部署（二）