hadoop3節點叢集安裝，spark叢集安裝

阿新 • • 發佈：2019-01-10

一：修改機器名

1. 修改3臺機器的機器名，注意名字不要帶下劃線

修改機器名命令：
hostnamectl set-hostname xxxx
然後退出shell重新登陸

修改3臺機器的hosts檔案
vim /etc/hosts
新增以下內容
192.107.53.157  hadoop-master
192.107.53.158  hadoop-slave1
192.107.53.159  hadoop-slave2

二：主從節點免密碼登陸

1. 免金鑰登陸本機

1. 關閉防火牆
檢視防火牆狀態
service iptables status
關閉防火牆
service iptables stop 
chkconfig iptables off

2. 免密碼登入本機
1）生產祕鑰
ssh-keygen -t rsa
2）將公鑰追加到”authorized_keys”檔案
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
3）賦予許可權
chmod 600 .ssh/authorized_keys
4）驗證本機能無密碼訪問
ssh hadoop-master

依次配置hadoop-slave1, hadoop-slave2 免金鑰登陸本機

2. hadoop-master本機無密碼登入hadoop-slave1、hadoop-slave2，以hadoop-master無密碼登入hadoop-slave1為例進行講解：(主節點免密碼登陸從節點)

1）登入hadoop-slave1 ，複製hadoop-master伺服器的公鑰”id_rsa.pub”到hadoop-slave1伺服器的”root”目錄下。
scp [email protected]:/root/.ssh/id_rsa.pub /root/ 或者
scp [email protected]:/root/.ssh/id_rsa.pub /root/
2）將hadoop-master的公鑰（id_rsa.pub）追加到hadoop-slave1的authorized_keys中
cat id_rsa.pub >> .ssh/authorized_keys
rm -rf  id_rsa.pub
3）在 hadoop-master上面測試
ssh  hadoop-slave1

登入hadoop-slave2 ，執行上面同樣的操作

3. 配置hadoop-slave1，hadoop-slave2本機無密碼登入hadoop-master（從節點免密碼登陸主節點）

1）登入hadoop-master，複製hadoop-slave1伺服器的公鑰”id_rsa.pub”到hadoop-master伺服器的”/root/”目錄下。

scp [email protected]:/root/.ssh/id_rsa.pub /root/
2）將hadoop-slave1的公鑰（id_rsa.pub）追加到hadoop-master的authorized_keys中。

cat id_rsa.pub >> .ssh/authorized_keys
rm -rf  id_rsa.pub //刪除id_rsa.pub
3）在 hadoop-slave1上面測試

ssh  hadoop-master

重複上述步驟，使得hadoop-slave2本機也可以無密碼登陸主節點

至此，主從節點的免密碼登陸完成

三：hadoop安裝

1. hadoop-master的安裝和配置

1) 安裝jdk

#下載  
jdk-8u171-linux-x64.tar.gz
#解壓  
tar -xzvf  
jdk-8u171-linux-x64.tar.gz  -C /usr/local 
#重新命名   
mv  jdk-8u171-linux-x64  java

2) 安裝hadoop

#下載  
hadoop-3.1.0.tar.gz
#解壓  
tar -xzvf  hadoop-3.1.0.tar.gz   -C /usr/local 
#重新命名   
mv  hadoop-3.1.0.tar.gz  hadoop

3) 配置環境變數

vim /etc/profile
JAVA_HOME="/usr/local/java"
export PATH="$JAVA_HOME/bin:$PATH"
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
source /etc/profile

4) hadoop相關配置

cd /usr/local/hadoop/etc/hadoop

a) 配置core-site.xml

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.107.53.157:9000</value>
    </property>
</configuration>

b）配置hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.name.dir</name>
        <value>/usr/local/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/usr/local/hadoop/hdfs/data</value>
    </property>
    <property>
        <name>dfs.namenode.rpc-address</name>
        <value>192.107.53.157:9000</value>
    </property>
</configuration>

c) 配置 mapred-site.xml

<configuration>
  <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
  </property>
   <property>
      <name>mapred.job.tracker</name>
      <value>http://192.107.53.157:9001</value>
  </property>

  <property>
      <name>mapreduce.application.classpath</name>
      <value>
       /usr/local/hadoop/etc/hadoop,
       /usr/local/hadoop/share/hadoop/common/*,
       /usr/local/hadoop/share/hadoop/common/lib/*,
       /usr/local/hadoop/share/hadoop/hdfs/*,
       /usr/local/hadoop/share/hadoop/hdfs/lib/*,
       /usr/local/hadoop/share/hadoop/mapreduce/*,
       /usr/local/hadoop/share/hadoop/mapreduce/lib/*,
       /usr/local/hadoop/share/hadoop/yarn/*,
       /usr/local/hadoop/share/hadoop/yarn/lib/*
     </value>
  </property>
</configuration>

d) 配置yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop-master</value>
    </property>
</configuration>

e) 配置workers檔案

hadoop-slave1
hadoop-slave2

f) 配置hadoop-env.sh

export JAVA_HOME=/usr/local/java

2. hadoop-slave1的安裝和配置(其他從節點操作一樣)

1）複製hadoop和java到hadoop-slave1節點

scp -r /usr/local/hadoop hadoop-slave1:/usr/local/

scp -r /usr/local/java hadoop-slave1:/usr/local/

2) 登入hadoop-slave1伺服器，刪除workers內容

rm -rf /usr/local/hadoop/etc/hadoop/workers

3) 配置環境變數

vim /etc/profile
JAVA_HOME="/usr/local/java"
export PATH="$JAVA_HOME/bin:$PATH"
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
source /etc/profile

四：啟動hadoop叢集

修改sh的使用者，不然啟動會報錯

vim start-dfs.sh 以及 vim stop-dfs.sh 分別新增下面4行

HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

vim start-yarn.sh 以及 vim stop-yarn.sh 分別新增下面4行

YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn

1）首次啟動需要format namenode

hdfs namenode -format

2）啟動hadoop：
sbin/start-all.sh

3）使用jps命令檢視執行情況

#master 執行 jps檢視執行情況
25928 SecondaryNameNode
25742 NameNode
26387 Jps

26078 ResourceManager

#slave 執行 jps檢視執行情況
24002 NodeManager
23899 DataNode

24179 Jps

4) 跑計算圓周率的程式，說明hadoop可以正常執行

hadoop jar /usr/local/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar pi 5 10

5) 登陸瀏覽器 http://192.107.53.157:8088/cluster/apps

五：問題處理

1. Hadoop叢集配置之後瀏覽器無法訪問問題

https://blog.csdn.net/csdn_chuxuezhe/article/details/73322068

修改主機名： 
vi /etc/sysconfig/network 
在下邊修改： 
NETWORKING=yes 
HOSTNAME=hadoop-master

同時，修改hosts vi /etc/hosts

192.107.53.157  hadoop-master
192.107.53.158  hadoop-slave1
192.107.53.159  hadoop-slave2

重啟！！！！！

參考文獻

http://www.ityouknow.com/hadoop/2017/07/24/hadoop-cluster-setup.html

六： spark 叢集安裝

1. 以hadoop-master節點為例

1. 安裝scala
2. 安裝spark
3. 配置環境變數

#scala
export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin

#spark
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

4. spark配置
cp    spark-env.sh.template   
spark-env.sh
vim spark-env.sh

export JAVA_HOME=/usr/local/java
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_HOME=/usr/local/spark
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER_IP=hadoop-master 
export SPARK_EXECUTOR_MEMORY=1G
export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1

JAVA_HOME：Java安裝目錄 
SCALA_HOME：Scala安裝目錄 
HADOOP_HOME：hadoop安裝目錄 
HADOOP_CONF_DIR：hadoop叢集的配置檔案的目錄
SPARK_MASTER_IP：spark叢集的Master節點的ip地址 
SPARK_WORKER_MEMORY：每個worker節點能夠最大分配給exectors的記憶體大小
SPARK_WORKER_CORES：每個worker節點所佔有的CPU核數目
SPARK_WORKER_INSTANCES：每臺機器上開啟的worker節點的數目

5. 編輯slaves
cp    slaves.template   slaves
vi slaves加入Worker節點如下配置
hadoop-slave1
hadoop-slave2

2. hadoop-slave1,hadoop-slave2兩個節點將scala，spark包複製過去即可

1.登陸hadoop-svale1
 scp -r [email protected]:/usr/local/scala /usr/local

 scp -r [email protected]:/usr/local/spark /usr/local

2. 配置環境變數

#scala
export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin

#spark
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

登陸hadoop-svale2執行一樣的操作

3. 啟動spark叢集

1 cd /usr/local/spark/sbin
./start-all.sh

4. 執行樣例

下面連結各種提交模式都有，可參考

http://zhenggm.iteye.com/blog/2358324

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client examples/jars/spark-examples_2.11-2.1.0.jar

七問題解決

問題1：Container xxx is running beyond physical memory limits

日誌：
```
Container [pid=134663,containerID=container_1430287094897_0049_02_067966] is running beyond physical memory limits. Current usage: 1.0 GB of 1 GB physical memory used; 1.5 GB of 10 GB virtual memory used. Killing container. Dump of the process-tree for
```
問題分析：
從日誌可以看出，container使用記憶體超過虛擬記憶體的限制，導致如上問題。預設2.1；
NodeManager端設定，類似系統層面的overcommit問題,需要調節yarn.nodemanager.vmem-pmem-ratio相關引數，在yarn-site.xml修改:

<property>
 <name>yarn.nodemanager.vmem-pmem-ratio</name>
     <value>10</value>
 </property>
 –或者yarn.nodemanager.vmem-check-enabled，false掉 
 <property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
 </property>

問題2：datanode程序掛掉

重啟程序

sbin/hadoop-daemon.sh start datanode

問題3：配置spark-history並啟動程序

只有日誌檔案往往是不夠的，有時候我們要檢視歷史記錄，這就需要在driver節點啟動History Server

在$SPARK_CONF_DIR下面的spark-defaults.conf檔案中新增EventLog和History Server的配置

# EventLog
spark.eventLog.enabled true
spark.eventLog.dir file:///opt/spark/current/spark-events
# History Server
spark.history.provider org.apache.spark.deploy.history.FsHistoryProvider
spark.history.fs.logDirectory file:/opt/spark/current/spark-events
這裡注意要建立/opt/spark/current/spark-events路徑，application的執行歷史才會儲存到該路徑。

執行啟動命令

./sbin/start-history-server.sh

可參考文獻

http://www.leonlu.cc/profession/14-spark-log-and-history/

問題4 日誌配置

https://blog.csdn.net/stark_summer/article/details/46929481

spark的日誌一方面列印到控制檯，一方面寫入到/home/hadoop/spark.log中了，這是日誌的繼承特性，後面再來改進，目前把log4j.rootCategory=INFO, console，FILE改為log4j.rootCategory=INFO, FILE即可

cd /usr/local/spark/conf

vim log4j.properties

log4j.rootCategory=INFO, console,FILE
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Settings to quiet third party logs that are too verbose
log4j.logger.org.eclipse.jetty=WARN
log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO

log4j.appender.FILE=org.apache.log4j.DailyRollingFileAppender
log4j.appender.FILE.Threshold=DEBUG
log4j.appender.FILE.file=/usr/local/spark/logs/spark.log
log4j.appender.FILE.DatePattern='.'yyyy-MM-dd
log4j.appender.FILE.layout=org.apache.log4j.PatternLayout
log4j.appender.FILE.layout.ConversionPattern=[%-5p] [%d{yyyy-MM-dd HH:mm:ss}] [%C{1}:%M:%L] %m%n
# spark
log4j.logger.org.apache.spark=INFO

問題5 spark連線ssl的kafka

spark叢集的3臺機器分別都要生成

將這4個檔案放在一個目錄下，直接執行2_ServerGenKey.sh指令碼即可

八：配置定時執行指令碼

vim /etc/crontab
*/1 * * * * root /bin/sh  /usr/local/jars/run.sh

若不想列印執行日誌，可這樣寫  */1 * * * * root /bin/sh  /usr/local/jars/run.sh /dev/null 2>&1

檢視日誌路徑 vim /var/log/cron

hadoop3節點叢集安裝，spark叢集安裝

一：修改機器名 1. 修改3臺機器的機器名，注意名字不要帶下劃線修改機器名命令： hostnamectl set-hostname xxxx 然後退出shell重新登陸修改3臺機器的hosts檔案 vim /etc/hosts 新增以下內容 192.107.53.157 had

Linux中安裝配置spark叢集

一. Spark簡介　　Spark是一個通用的平行計算框架，由UCBerkeley的AMP實驗室開發。Spark基於map reduce 演算法模式實現的分散式計算，擁有Hadoop MapReduce所具有的優點；但不同於Hadoop MapReduce的是Job中間輸出和結果可以儲存在記憶體中，從而不

大資料之Spark（八）--- Spark閉包處理，Spark的應用的部署模式，Spark叢集的模式，啟動Spark On Yarn模式，Spark的高可用配置

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,fun

Linux下基於Hadoop的大資料環境搭建步驟詳解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安裝與配置）

Linux下基於Hadoop的大資料環境搭建步驟詳解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安裝與配置）系統說明搭建步驟詳述一、節點基礎配置二、H

python中的各個包的安裝，用pip安裝whl文件

開始菜單 -s pla 英文 target com pac 版本下載在安裝之前，一直比較迷惑究竟如何用，安裝完後，發現竟然如此簡單首先我一般用的是python27，官網下載python27msi安裝window7 64位後，已經自帶了Pip 和 easy_instal

windows 與Linux之間的上傳與下載 (xftp 安裝，rz.sz安裝)

sar 為什麽我們 log download blog 也會技術 xftp 第一步：確認是否已經安裝ftp軟件:which vsftpd service vsftpd status //查看ftp服務器狀態 service vsftpd start //啟

mqtt服務的解除安裝，重新編譯安裝

Mqtt服務的解除安裝：查詢mqtt服務檔案：whereis mosquitto 刪除已安裝的mqtt檔案即可，重新解壓安裝配置安裝mqtt服務 mqtt服務配置檔案資料夾/etc/mosquitto mqtt命令檔案 /usr/local/sbin/mosquitto 相關mosq

ubuntu 下安裝軟體，解除安裝，檢視已經安裝的軟體

一般的安裝程式用三種： .deb 和.rpm 這兩種安裝檔案 .bundle 這是二進位制的安裝檔案　而　tar.gz 這類的只是壓縮包（相當於 .rar,.zip 壓縮包一樣）,如果此類檔案是程式的話，得先解壓。使用者手動選擇安裝目錄是不必要的。這一套系統更瞭解什麼

Docker Win 10 系統下配置和安裝，並解決安裝遇到的問題！

目前支援Windows安裝的Docker軟體主要分為兩類：一是基於win10 系統的Docker for Windows，這個只能裝在win 10 系統可以用；還有一個就是Docker Toolbox，可以安裝在win7，8，10等系統中。本文主要是在Win10下安裝

阿里雲Linux的mysql安裝，使用yum安裝

1、下載我下載的mysql5.7 rpm格式的，在Linux的根目錄下下載（防止出現安裝的問題） wget https://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm 2、安裝

Centos6.6 yum源更新方法及R軟體安裝，R模組安裝

新到的叢集（centos 6.6）準備安裝些常用軟體yum install softwarename安裝第一個軟體yum install R發現找不到源路徑，解決辦法，更新yum源（來源https://blog.csdn.net/owangf_dl/article/detai

kubernetes1.8.1安裝指南，離線安裝，內網安裝_Kubernetes中文社群

使用kubeadm部署k8s叢集三步裝叢集：[離線包地址](https://market.aliyun.com/products/56014009/cmxz022571.html#sku=yuncode1657100000) 基礎環境關閉swap swapoff -a 再把/etc/fst

專案所需的應用程式未安裝，確保已安裝專案型別（.csproj/vcproj）的應用程式

用VS也有一段時間了...但是最近遇到了這種問題，莫名其妙也不知道原因，上網找到了這個解決方法，希望對於和我一樣的新手有幫助~ 其實這個問題已經早就右我的好朋友發現並些在blog上了，而我最近也是頻頻遇到這個問題，解決的方法我也知道，只是不知道是否好多朋友也被這個問題困擾。

MyEclipse-2017-ci下載，安裝，破解以及安裝會遇到的問題

（1）下載官網上下載：http://www.myeclipsecn.com/download/ 破解包連結：https://pan.baidu.com/s/1A_FLWIee1llzdM4SPrwZQA 密碼：21k7（2）安裝安裝的步驟略（注意：安裝完成

如何安裝CRX格式？Chrome外掛離線安裝，CRX格式安裝方法 JSON-handle Chrome外掛下載

目前，Chrome官方已經禁止非Chrome商店的應用安裝了，所以本站的應用還是通過國外伺服器從谷歌官方應用市場下載下來的，提供給國內的廣大使用者使用，下面我們就以 Check my cookies

專案所需的應用程式未安裝，確保已安裝專案型別（.csproj）的應用程式的解決辦法

產生這個的原因其實也很簡單，細心的讀者如果開啟這個檔案的話，從列表中選擇開啟方式的時候就會發現專案檔案的開啟方式已經不是visual studio了，而是Micrisoft visual studio version selector.因此，解決的辦法就是用visual s

如何安裝CRX格式？Chrome外掛離線安裝，CRX格式安裝方法

目前，Chrome官方已經禁止非Chrome商店的應用安裝了，所以本站的應用還是通過國外伺服器從谷歌官方應用市場下載下來的，提供給國內的廣大使用者使用，下面我們就以Check my cookies 外掛為例，來講一下本站下載的外掛如何安裝到Chrome瀏覽器！第一步

Solr叢集搭建，zookeeper叢集搭建，Solr分片管理，Solr叢集下的DataImport，分詞配置。

1 什麼是SolrCloud　　SolrCloud(solr 雲)是Solr提供的分散式搜尋方案，當你需要大規模，容錯，分散式索引和檢索能力時使用 SolrCloud。當一個系統的索引資料量少的時候是不需要使用SolrCloud的，當索引量很大，搜尋請求併發很高，這時需要

R安裝，R包安裝

系統：除了windows R安裝方法一： ./configure; make; make test; make install ./configure --prefix=你想安裝路徑 ; make; make test; make install （非root

NodeJS和npm的安裝，以及在安裝express可能報錯的解決辦法

1.對於NodeJS的安裝，首先我們來看NodeJS的官網http://nodejs.cn/，首頁簡單的介紹了什麼是NodeJS和Npm，Node.js 是一個基於 Chrome V8

hadoop3節點叢集安裝，spark叢集安裝

一 ： 修改機器名

二：主從節點免密碼登陸

三：hadoop安裝

四：啟動hadoop叢集

五：問題處理

六： spark 叢集安裝

七 問題解決

問題1：Container xxx is running beyond physical memory limits

問題2：datanode程序掛掉

問題3：配置spark-history並啟動程序

問題4 日誌配置

問題5 spark連線ssl的kafka

相關推薦

一：修改機器名

七問題解決