在VM虛擬機器上搭建Hadoop2.7.3+Spark2.1.0完全分散式叢集

阿新 • • 發佈：2019-01-06

1.選取三臺伺服器（CentOS系統64位）

    114.55.246.88主節點

　　114.55.246.77 從節點

　　114.55.246.93 從節點

之後的操作如果是用普通使用者操作的話也必須知道root使用者的密碼，因為有些操作是得用root使用者操作。如果是用root使用者操作的話就不存在以上問題。

　　我是用root使用者操作的。

2.修改hosts檔案

　　修改三臺伺服器的hosts檔案。

　　vi /etc/hosts

　　在原檔案的基礎最後面加上：

114.55.246.88 Master
114.55.246.77 Slave1
114.55.246.93 Slave2

　　修改完成後儲存執行如下命令。

　　source /etc/hosts

3.ssh無密碼驗證配置

　　3.1安裝和啟動ssh協議

　　我們需要兩個服務：ssh和rsync。

　　可以通過下面命令檢視是否已經安裝：

　　rpm -qa|grep openssh

　　rpm -qa|grep rsync

　　如果沒有安裝ssh和rsync，可以通過下面命令進行安裝：

　　yum install ssh （安裝ssh協議）

　　yum install rsync （rsync是一個遠端資料同步工具，可通過LAN/WAN快速同步多臺主機間的檔案）

　　service sshd restart

（啟動服務）

　　3.2 配置Master無密碼登入所有Salve

　　配置Master節點，以下是在Master節點的配置操作。

　　1）在Master節點上生成密碼對，在Master節點上執行以下命令：

　　ssh-keygen -t rsa -P ''

　　生成的金鑰對：id_rsa和id_rsa.pub，預設儲存在"/root/.ssh"目錄下。

　　2）接著在Master節點上做如下配置，把id_rsa.pub追加到授權的key裡面去。

　　cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

　　3）修改ssh配置檔案"/etc/ssh/sshd_config"的下列內容，將以下內容的註釋去掉：

　　RSAAuthentication yes # 啟用 RSA 認證

　　PubkeyAuthentication yes # 啟用公鑰私鑰配對認證方式

　　AuthorizedKeysFile .ssh/authorized_keys # 公鑰檔案路徑（和上面生成的檔案同）

　　4）重啟ssh服務，才能使剛才設定有效。

　　service sshd restart

　　5）驗證無密碼登入本機是否成功。

　　ssh localhost

　　6）接下來的就是把公鑰複製到所有的Slave機器上。使用下面的命令進行復制公鑰：

　　scp /root/.ssh/id_rsa.pub [email protected]:/root/

　　接著配置Slave節點，以下是在Slave1節點的配置操作。

　　1）在"/root/"下建立".ssh"資料夾，如果已經存在就不需要建立了。

　　mkdir /root/.ssh

　　2）將Master的公鑰追加到Slave1的授權檔案"authorized_keys"中去。

　　cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

　　3）修改"/etc/ssh/sshd_config"，具體步驟參考前面Master設定的第3步和第4步。

　　4）用Master使用ssh無密碼登入Slave1

　　ssh 114.55.246.77

　　5）把"/root/"目錄下的"id_rsa.pub"檔案刪除掉。

　　rm –r /root/id_rsa.pub

　　重複上面的5個步驟把Slave2伺服器進行相同的配置。

　　3.3 配置所有Slave無密碼登入Master

　　以下是在Slave1節點的配置操作。

　　1）建立"Slave1"自己的公鑰和私鑰，並把自己的公鑰追加到"authorized_keys"檔案中，執行下面命令：

　　ssh-keygen -t rsa -P ''

　　cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

　　2）將Slave1節點的公鑰"id_rsa.pub"複製到Master節點的"/root/"目錄下。

　　scp /root/.ssh/id_rsa.pub [email protected]:/root/

　　以下是在Master節點的配置操作。

　　1）將Slave1的公鑰追加到Master的授權檔案"authorized_keys"中去。

　　cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

　　2）刪除Slave1複製過來的"id_rsa.pub"檔案。

　　rm –r /root/id_rsa.pub

　　配置完成後測試從Slave1到Master無密碼登入。

　　ssh 114.55.246.88

　　按照上面的步驟把Slave2和Master之間建立起無密碼登入。這樣，Master能無密碼驗證登入每個Slave，每個Slave也能無密碼驗證登入到Master。

4.安裝基礎環境（JAVA和SCALA環境）

　　4.1 Java1.8環境搭建

　　1）下載jdk-8u121-linux-x64.tar.gz解壓

　　tar -zxvf jdk-8u121-linux-x64.tar.gz

　　2）新增Java環境變數，在/etc/profile中新增：

export JAVA_HOME=/usr/local/jdk1.8.0_121
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/rt.jar
export JAVA_HOME PATH CLASSPATH

　　3）儲存後重新整理配置

　　source /etc/profile

　　4.2 Scala2.11.8環境搭建

　　1）下載scala安裝包scala-2.11.8.rpm安裝

　　rpm -ivh scala-2.11.8.rpm

　　2）新增Scala環境變數，在/etc/profile中新增：

export SCALA_HOME=/usr/share/scala
export PATH=$SCALA_HOME/bin:$PATH

　　3）儲存後重新整理配置

　　source /etc/profile

5.Hadoop2.7.3完全分散式搭建

　　以下是在Master節點操作：

　　1）下載二進位制包hadoop-2.7.3.tar.gz

　　2）解壓並移動到相應目錄，我習慣將軟體放到/opt目錄下，命令如下：

　　tar -zxvf hadoop-2.7.3.tar.gz

　　mv hadoop-2.7.3 /opt

　　3）修改相應的配置檔案。

　　修改/etc/profile，增加如下內容：

 export HADOOP_HOME=/opt/hadoop-2.7.3/
 export PATH=$PATH:$HADOOP_HOME/bin
 export PATH=$PATH:$HADOOP_HOME/sbin
 export HADOOP_MAPRED_HOME=$HADOOP_HOME
 export HADOOP_COMMON_HOME=$HADOOP_HOME
 export HADOOP_HDFS_HOME=$HADOOP_HOME
 export YARN_HOME=$HADOOP_HOME
 export HADOOP_ROOT_LOGGER=INFO,console
 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
 export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

　　修改完成後執行：

　　source /etc/profile

　　修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh，修改JAVA_HOME 如下：

  export JAVA_HOME=/usr/local/jdk1.8.0_121

　　修改$HADOOP_HOME/etc/hadoop/slaves，將原來的localhost刪除，改成如下內容：

Slave1
Slave2

　　修改$HADOOP_HOME/etc/hadoop/core-site.xml

<configuration>
      <property>
          <name>fs.defaultFS</name>
          <value>hdfs://Master:9000</value>
      </property>
      <property>
         <name>io.file.buffer.size</name>
         <value>131072</value>
     </property>
     <property>
          <name>hadoop.tmp.dir</name>
          <value>/opt/hadoop-2.7.3/tmp</value>
     </property>
</configuration>

　　修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>Master:50090</value>
    </property>
    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>
    <property>
      <name>dfs.namenode.name.dir</name>
      <value>file:/opt/hadoop-2.7.3/hdfs/name</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>file:/opt/hadoop-2.7.3/hdfs/data</value>
    </property>
</configuration>

　　複製template，生成xml，命令如下：

　　cp mapred-site.xml.template mapred-site.xml

　　修改$HADOOP_HOME/etc/hadoop/mapred-site.xml

<configuration>
 <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
          <name>mapreduce.jobhistory.address</name>
          <value>Master:10020</value>
  </property>
  <property>
          <name>mapreduce.jobhistory.address</name>
          <value>Master:19888</value>
  </property>
</configuration>

　　修改$HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration>
     <property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
     </property>
     <property>
         <name>yarn.resourcemanager.address</name>
         <value>Master:8032</value>
     </property>
     <property>
         <name>yarn.resourcemanager.scheduler.address</name>
         <value>Master:8030</value>
     </property>
     <property>
         <name>yarn.resourcemanager.resource-tracker.address</name>
         <value>Master:8031</value>
     </property>
     <property>
         <name>yarn.resourcemanager.admin.address</name>
         <value>Master:8033</value>
     </property>
     <property>
         <name>yarn.resourcemanager.webapp.address</name>
         <value>Master:8088</value>
     </property>
</configuration>

　　4）複製Master節點的hadoop資料夾到Slave1和Slave2上。

　　scp -r /opt/hadoop-2.7.3 [email protected]:/opt

　　5）在Slave1和Slave2上分別修改/etc/profile，過程同Master一樣。

　　6）在Master節點啟動叢集，啟動之前格式化一下namenode：

　　hadoop namenode -format

　　啟動：

　　/opt/hadoop-2.7.3/sbin/start-all.sh

　　至此hadoop的完全分散式環境搭建完畢。

　　7）檢視叢集是否啟動成功：

　　jps

　　Master顯示：

　　SecondaryNameNode

　　ResourceManager

　　NameNode

　　Slave顯示：

　　NodeManager

　　DataNode

6.Spark2.1.0完全分散式環境搭建

　　以下操作都在Master節點進行。

　　1）下載二進位制包spark-2.1.0-bin-hadoop2.7.tgz

　　2）解壓並移動到相應目錄，命令如下：

　　tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz

　　mv hadoop-2.7.3 /opt

　　3）修改相應的配置檔案。

　　修改/etc/profie，增加如下內容：

export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7/
export PATH=$PATH:$SPARK_HOME/bin

　　複製spark-env.sh.template成spark-env.sh

　　cp spark-env.sh.template spark-env.sh

　　修改$SPARK_HOME/conf/spark-env.sh，新增如下內容：

export JAVA_HOME=/usr/local/jdk1.8.0_121
export SCALA_HOME=/usr/share/scala
export HADOOP_HOME=/opt/hadoop-2.7.3
export HADOOP_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop
export SPARK_MASTER_IP=114.55.246.88
export SPARK_MASTER_HOST=114.55.246.88
export SPARK_LOCAL_IP=114.55.246.88
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=2
export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.7.3/bin/hadoop classpath)

　　複製slaves.template成slaves

　　cp slaves.template slaves

　　修改$SPARK_HOME/conf/slaves，新增如下內容：

Master
Slave1
Slave2

　　4）將配置好的spark檔案複製到Slave1和Slave2節點。

　　scp /opt/spark-2.1.0-bin-hadoop2.7 [email protected]:/opt

　　5）修改Slave1和Slave2配置。

　　在Slave1和Slave2上分別修改/etc/profile，增加Spark的配置，過程同Master一樣。

　　在Slave1和Slave2修改$SPARK_HOME/conf/spark-env.sh，將export SPARK_LOCAL_IP=114.55.246.88改成Slave1和Slave2對應節點的IP。

　　6）在Master節點啟動叢集。

　　/opt/spark-2.1.0-bin-hadoop2.7/sbin/start-all.sh

　　7）檢視叢集是否啟動成功：

　　jps

　　Master在Hadoop的基礎上新增了：

　　Master

　　Slave在Hadoop的基礎上新增了：

　　Worker

在VM虛擬機器上搭建Hadoop2.7.3+Spark2.1.0完全分散式叢集

1.選取三臺伺服器（CentOS系統64位） 114.55.246.88主節點　　114.55.246.77 從節點　　114.55.246.93 從節點之後的操作如果是用普通使用者操作的話也必須知道root使用者的密碼，因為有些操作是得

Hadoop2.7.3+Spark2.1.0完全分散式叢集搭建過程

1.選取三臺伺服器（CentOS系統64位）　　114.55.246.88 主節點　　114.55.246.77 從節點　　114.55.246.93 從節點之後的操作如果是用普通使用者操作的話也必須知道root使用者的密碼，因為有些操作是得用root使用者操作。如

Spark之——Hadoop2.7.3+Spark2.1.0 完全分散式環境搭建全過程

一、修改hosts檔案在主節點，就是第一臺主機的命令列下;vim /etc/hosts我的是三臺雲主機：在原檔案的基礎上加上;ip1 master worker0 namenode ip2 worker1 datanode1 ip3 worker2 datanode2其中的i

CentOS7+Hadoop2.7.2(HA高可用+Federation聯邦)+Hive1.2.1+Spark2.1.0 完全分散式叢集安裝

本文件主要記錄了Hadoop+Hive+Spark叢集安裝過程，並且對NameNode與ResourceManager進行了HA高可用配置，以及對NameNode的橫向擴充套件（Federation聯邦） 1VM網路配置將子網IP設定為192.168.1.0：將閘道器設定

ubuntu 16.04搭建hadoop2.7.2(Vmware 12.0搭建完全分散式三臺虛擬機器)

此做法無實際意義，只是用來學習搭建過程和了解hadoop相關配置。版本：Ubuntu16.04 hadoop2.7.2（一臺電腦開三臺虛擬機器完全分散式）主結點：192.168.150.112 Caxiongyu1 從結點：192.168.150.113 Caix

Centos7完全分布式搭建Hadoop2.7.3

.com 密碼 hist gif apach sys cat 設置 blank (一）軟件準備 1，hadoop-2.7.3.tar.gz（包） 2,三臺機器裝有cetos7的機子（二）安裝步驟　　1，給每臺機子配相同的用戶　　　　進入root : su root 　

關於vm虛擬機器上安裝kali之後登入黑屏的問題

最近想在vmware安裝一臺kali虛擬機器，但是安裝完畢之後正確輸入使用者名稱和密碼系統出現黑屏，而後一直卡在那裡… 在網上經過一番搜尋瞭解，問題出在本地主機有雙顯示卡且其中有一個是nvidia的顯示卡安裝kali 的時候，如果檢測到系統有這個顯示卡驅動，會預設安裝這個驅動，至於為啥會

virtualBox 虛擬機器上使用centos 7 安裝fastdfs

<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post"

部門第一次作業在伺服器或虛擬機器上搭建網站（一）伺服器的初步搭建

自己的伺服器上是CentOS系統且已用來搭建個人部落格，不想重灌Windows且不想已工作網站為主要網站，因此選用搭建虛擬機器的方式來完成任務。虛擬機器系統為Windows server 2008 R2標準版（本來我安裝的是web版，考慮到將來不知道還有哪些功能

在VMware11虛擬機器上安裝Windows 7 x64作業系統(詳細教程)

在VMware11虛擬機器上安裝Windows 7 x64作業系統總體來說分為三大步： 1.完成Windows7 x 64初始化設定點選主頁中的建立新的虛擬機器點選下一步選中稍後安裝作業系統 > 點選下一步選中Microsoft Windows >

Ubuntu16.04 上執行 Hadoop2.7.3 自帶example wordCount摸索記錄

首先最最重要的寫在最前面，也是我覺得個人踩得最深的坑，剛接觸hadoop的人，缺少的認識： hdfs的理解：它是一個檔案系統，跟linux的檔案系統是類似的結構，擁有類似的語法，大概就是你在linux上ls檢視檔案列表，那麼hdfs的無非就是hadoop fs -ls。ha

CentOS7下搭建hadoop2.7.3完全分散式

這裡搭建的是3個節點的完全分散式，即1個nameNode，2個dataNode，分別如下： CentOS-master nameNode 192.168.11.128 CentOS-node1 dataNode 192.168.11.131 Cen

VirtualBox虛擬機器上安裝CentOS-7（Linux作業系統）

學習Linux作業系統對於小白，一般都會在Windows下安裝虛擬機器，在虛擬機器上安裝Linux作業系統。對於初次接觸安裝上不免對於安裝選項不知所措。為學習Linux踩過不少坑，在這裡總結了一下安裝過程，也為鞏固。對於安裝VirtualBox虛擬機器還是V

記一次在虛擬機器上搭建ftp伺服器過程

環境：Windows7+VMware14.0+Ubuntu16.04 第一步：在Ubuntu上安裝vsftpdsudo apt-get update sudo apt-get install vsft

myeclipse下搭建hadoop2.7.3開發環境

感謝分享：http://www.cnblogs.com/duking1991/p/6056923.html 需要下載的檔案：連結：http://pan.baidu.com/s/1i5yRyuh 密碼：ms91 一下載並編譯 hadoop-eclipse-plu

在虛擬機器上搭建代理伺服器，使用squid

下面介紹一下使用squid來搭建虛擬機器代理伺服器（簡單配置方式的介紹）安裝squid: sudo apt-get install squid 修改該配置檔案： cd /etc/squid3 && ls得到檔案目錄如下： . ├── errorp

Hadoop2.7.5+Hbase1.2.6完全分散式搭建

1.叢集安裝主機名MasterzookeeperregionServerMaster11Slave1備份11Slave2112.ssh（在Hadoop分散式搭建中已經完成）3.修改Master中Hbase的conf目錄下regionservers檔案，類似於Hadoop修改s

阿里雲ECS之完整流程搭建:CentOS 7.3+Nginx 1.12.1+php 7.2 + MaraiaDB 5.5.52 + PhpMyAdmin 4.6.6

大神們，請跳過～～～【背景】本人客戶端專業戶，簡單用用php，搭建伺服器屬於小白中的小白。去年買了低配阿里雲做測試服順便掛了個個人網站及堆放了些資源，最初是硬著頭皮據“甯浩網”的系列視訊教程搭建了一個apache+php+mysql的伺服器，被各種配置搞得頭大，但還算穩定。幾

在騰訊雲伺服器上搭建python2.7+django1.11.1+Mysql

搭建python2.7+django1.11.1+Mysql搭建環境：騰訊雲伺服器linux系統：ubuntu16.04第一步：檢視python版本（ubuntu16.04一般預裝python2.7，所以小編在這裡使用python2.7作為例項）在命令列輸入 pyth

hadoop-2.3.0-cdh5.1.0完全分散式搭建（基於centos）

注：本例使用root使用者搭建一、環境作業系統：CentOS 6.564位作業系統注：Hadoop2.0以上採用的是jdk環境是1.7,Linux自帶的jdk解除安裝掉，重新安裝

在VM虛擬機器上搭建Hadoop2.7.3+Spark2.1.0完全分散式叢集

相關推薦