1. 程式人生 > >spark的安裝配置

spark的安裝配置

 

一、系統安裝:centos7

1.新建三臺虛擬機器

2.新建完成後進入虛擬機器安裝系統,選擇最小安裝

3.配置ip

cd /etc/sysconfig/network-scripts/
vi ifcfg-ens33

4.設定hostname(伺服器名稱)

hostname               檢視伺服器名稱
hostnamectl set-hostname master   設定伺服器名稱為master(主)/slave1(從)/slave2

修改vi  /etc/hosts檔案 使ip和名稱一一對應

測試ping slave1能否ping通

5.ssh

①檢測ssh是否已安裝

rpm -qa|grep openssh

②安裝ssh

yum install ssh 安裝SSH協議
service sshd restart 啟動服務

③配置ssh免密登入

1)SSH無密碼原理 

  Master(NameNode | JobTracker)作為客戶端,要實現無密碼公鑰認證,連線到伺服器Salve(DataNode | Tasktracker)上時,需要在Master上生成一個金鑰對,包括一個公鑰和一個私鑰,而後將公鑰複製到所有的Slave上。當Master通過SSH連線Salve時,Salve就會生成一個隨機數並用Master的公鑰對隨機數進行加密,併發送給Master。Master收到加密數之後再用私鑰解密,並將解密數回傳給Slave,Slave確認解密數無誤之後就允許Master進行連線了。這就是一個公鑰認證過程,其間不需要使用者手工輸入密碼。重要過程是將客戶端Master複製到Slave上。

2)生成祕鑰

cd ~
ssh-keygen -t rsa

輸入命令後一直按回車,不要輸入,(cd ~/.ssh)目錄下可以生成一個公鑰一個私鑰

3)在Master節點上把id_rsa.pub追加到授權的key裡面去

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys    把公鑰追加至授權key中
chmod 600 ~/.ssh/authorized_keys                   修改authorized_keys許可權
service sshd restart                               重啟ssh授權
ssh localhost                                      在master本機測試是否可以免密登入

4)Master與其他節點無密登入

 從master中把authorized_keys分發到各個結點上格式為(scp ~/.ssh/authorized_keys 遠端使用者名稱@遠端伺服器IP:~/)

scp ~/.ssh/authorized_keys slave1:~/.ssh 
scp ~/.ssh/authorized_keys slave2:~/.ssh 

測試ssh slave1能否免密登入

二、必備軟體安裝

1.安裝java

1)進入opt目錄下載 (如果wget命令未找到就 yum -y install wget)

cd /opt

wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie" "http://download.oracle.com/otn-pub/java/jdk/8u141-b15/336fa29ff2bb4ef291e347e091f7f4a7/jdk-8u141-linux-x64.tar.gz"

2)解壓

tar -zxvf jdk-8u141-linux-x64.tar.gz  

3)配環境變數(https://www.cnblogs.com/ilovexiao/p/3946467.html

cat /etc/profile     進入配置目錄

 

在末尾加入java環境變數

source /etc/profile   使配置馬上生效

測試

java 
javac
java -version

2.安裝hadoop

①進入opt目錄下載

wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie" "http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz" 

②解壓

tar -zxvf hadoop-2.7.7.tar.gz 

③/opt/hadoop-2.7.7/etc/hadoop/目錄下配置檔案修改

1)JAVA_HOME

進入到cd /opt/hadoop-2.7.7/etc/hadoop/路徑下 hadoop-env.sh和yarn-env.sh 末尾新增JAVA_HOME

cd /opt/hadoop-2.7.7/etc/hadoop/
vi hadoop-env.sh 
vi yarn-env.sh

2)修改core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml,slaves 配置檔案

core-site.xml

vi core-site.xml 
<configuration> 
      <property>  
        <name>fs.default.name</name>  
        <value>hdfs://master:9000</value>  
      </property>  
      <property>  
        <name>hadoop.tmp.dir</name>  
        <value>/opt/hadoop-2.7.7/tmp</value>          <--!沒有tmp資料夾需要新建-->
      </property>   
</configuration> 

hdfs-site.xml

vi hdfs-site.xml
<configuration>  
      <property>  
        <name>dfs.replication</name>  
        <value>2</value>  
        <description>設定副本數</description>
      </property>  
      <property>  
        <name>dfs.namenode.name.dir</name>  
        <value>file:/opt/hadoop-2.7.7/dfs/name</value>  
        <description>設定存放NameNode的檔案路徑</description>
      </property>  
      <property>  
        <name>dfs.datanode.data.dir</name>  
        <value>file:/opt/hadoop-2.7.7/dfs/data</value>  
        <description>設定存放DataNode的檔案路徑</description>
      </property>  
</configuration>

mapred-site.xml(如果目錄下沒有mapred-site.xml,只有mapred.xml.template,我們要複製該檔案,並命名為mapred.xml,該檔案用於指定MapReduce使用的框架)

cp mapred-site.xml.template mapred-site.xml    (沒有mapred-site.xml才需要執行)
vi mapred-site.xml
<configuration>  
      <property>  
        <name>mapreduce.framework.name</name>  
        <value>yarn</value>  
      </property>  
      <property>  
        <name>mapreduce.jobhistory.address</name>  
        <value>Master:10020</value>  
      </property>  
      <property>  
        <name>mapreduce.jobhistory.webapp.address</name>  
        <value>Master:19888</value>  
      </property>  
</configuration>  

yarn-site.xml

vi yarn-site.xml
<configuration>     
    <!-- Site specific YARN configuration properties -->  
      <property>  
        <name>yarn.nodemanager.aux-services</name>  
        <value>mapreduce_shuffle</value>  
      </property>  
      <property>  
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>  
      </property>  
      <property>  
        <name>yarn.resourcemanager.address</name>  
        <value>master:8032</value>  
      </property>  
      <property>  
    <name>yarn.resourcemanager.scheduler.address</name>  
        <value>master:8030</value>  
      </property>  
      <property>  
        <name>yarn.resourcemanager.resource-tracker.address</name>  
        <value>master:8031</value>  
      </property>  
      <property>  
        <name>yarn.resourcemanager.admin.address</name>  
        <value>master:8033</value>  
      </property>  
      <property>  
        <name>yarn.resourcemanager.webapp.address</name>  
        <value>master:8088</value>  
      </property>  
</configuration> 

slaves 檔案 (清空後輸入兩臺從主機名稱)

vi slaves 
slave1
slave2

④分發hadoop到從節點

scp -r /opt/hadoop-2.7.7 slave1:/opt/hadoop-2.7.7
scp -r /opt/hadoop-2.7.7 slave2:/opt/hadoop-2.7.7

⑤啟動hadoop

1)在Master伺服器啟動hadoop,從節點會自動啟動,進入/opt/hadoop-2.7.0目錄 
2)初始化,輸入命令,bin/hdfs namenode -format 
3)全部啟動sbin/start-all.sh,也可以分開sbin/start-dfs.sh、sbin/start-yarn.sh 
4)終止伺服器:sbin/stop-all.sh 
5)輸入命令jps,可以看到相關資訊

⑥瀏覽器訪問                                                                                            

1)關閉防火牆systemctl stop firewalld.service 
2)瀏覽器開啟http://192.168.121.129:8088/ 
3)瀏覽器開啟http://192.168.121:129:50070/ 

相關推薦

centOS7下Spark安裝配置

節點 bin scala www. emp 讓其 slave park exec 環境說明: 操作系統: centos7 64位 3臺 centos7-1 192.168.190.130 master centos7-

Spark 安裝配置簡單測試

簡介 Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是Job中間輸出結

spark安裝配置和程式碼框架(轉)

之前查閱原始碼啊,效能測試啊調優啊。。基本告一段落,專案也接近尾聲,那麼整理下spark所有配置引數與優化策略,方便以後開發與配置: Spark安裝配置與程式碼框架  spark-default.conf 配置 spark.executor.instance

Hive on Spark安裝配置詳解(都是坑啊)

簡介 本文主要記錄如何安裝配置Hive on Spark,在執行以下步驟之前,請先確保已經安裝Hadoop叢集,Hive,MySQL,JDK,Scala,具體安裝步驟不再贅述。 背景 Hive預設使用MapReduce作為執行引擎,即Hive on mr。實際上,H

大數據筆記(二十七)——Spark Core簡介及安裝配置

sin cli sca follow com clu 同時 graphx 信息 1、Spark Core: 類似MapReduce 核心:RDD 2、Spark SQL: 類似Hive,支持SQL 3、Spark Streaming:類似

Spark Standalone Mode安裝配置

一、Spark下載安裝 官網地址:http://spark.apache.org/downloads.html [email protected]:/usr/local# tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz [email 

Spark安裝以及配置

2>在/usr/local/src/中解壓spark-2.0.2-bin-hadoop2.6.tgz 3>在spark根目錄中,進入/conf目錄下,建立slaves和 spark-env.sh檔案,我這裡配的是叢集的方式,所以在slaves中新增 sla

大資料基礎(五)從零開始安裝配置Hadoop 2.7.2+Spark 2.0.0到Ubuntu 16.04

raw to spark 0 install ubuntu 14.04.01 desktop x64 1 system基礎配置 《以下都是root模式》 1.3 root password sudo passwd root 1.5 root登入選項 a.在terminal下

python中安裝配置pyspark庫教程需要配合spark+hadoop使用

單獨安裝pyspark庫在單機上是沒法執行的,需要有相應的分散式軟體,這裡可以是spark+hadoop,配置安裝教程連結:spark2.3在window10當中來搭建python3的使用環境pyspark配置pyspark庫之前在安裝spark的時候,提到過pyspark庫

CDH安裝配置zeppelin-0.7.3以及配置spark查詢hive表

1.下載zeppelin http://zeppelin.apache.org/download.html  我下載的是796MB的那個已經編譯好的,如果需要自己按照環境編譯也可以,但是要很長時間編譯,這個版本包含了很多外掛,我雖然是CDH環境但是這個也可以使用。 2.修改

docker中spark+scala安裝配置

一、scala安裝首先下載scala壓縮包 wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz 解壓 tar -zxvf scala-2.11.7.tgz 移動目錄 mv scala-2.11

centos6 5安裝配置spark

                        安裝java

Linux中安裝配置spark叢集

一. Spark簡介   Spark是一個通用的平行計算框架,由UCBerkeley的AMP實驗室開發。Spark基於map reduce 演算法模式實現的分散式計算,擁有Hadoop MapReduce所具有的優點;但不同於Hadoop MapReduce的是Job中間輸出和結果可以儲存在記憶體中,從而不

Spark 1.6.2 單機版安裝配置

本文將介紹Apache Spark 1.6.2在單機的部署,與在叢集中部署的步驟基本一致,只是少了一些master和slave檔案的配置。直接安裝scala與Spark就可以在單機使用,但如果用到hdfs系統的話hadoop和jdk也要配置,建議全部安裝配置好。

Centos下Spark單機版(python)安裝配置

如果上面都成功了,那說明我們就基本安裝成功了,可以用scala或者python來開發相關程式了。但是如果我們希望能夠在一個很清新的IDE中開發程式怎麼辦?那麼這裡強烈推薦一款互動式的開發工具-jupyter notebook。接下來我們就來配置該工具,以保證能連線上sprak。

Spark 1.6.1 單機安裝配置

本文將介紹Apache Spark 1.6.1在單機的部署,與在叢集中部署的步驟基本一致,只是少了一些master和slave檔案的配置。http://blog.csdn.net/u011513853/article/details/52865076     Spark在Wi

ubuntu單機下安裝配置spark

一.安裝JDK 二.安裝SCALA 1.解壓scala-2.12.0.tgz到任意檔案目錄。 2.修改 /etc/profile配置檔案,加入以下程式碼 sudo echo export SCALA_HOME="~/hadoop/scala-2.12.0" >&g

spark python安裝配置 (初學)

需要:jdk10.0、spark2.3.1、Hadoop2.7.7(與spark對應的版本) 1、首先安裝pyspark包: pip install py4j pip install pyspark 2、安裝JDK,並配置環境,我的安裝位置為D

spark安裝配置

  一、系統安裝:centos7 1.新建三臺虛擬機器 2.新建完成後進入虛擬機器安裝系統,選擇最小安

Linux - vim安裝 配置與使用

格式 only ctx net height border term mona 方便 一 Vim 簡單介紹 曾經一直用vi,近期開始使用 vim,以下將兩者做一下比較。 vi和vim都是多模式編輯器,不同的是vim 是vi的升級版本號,它不僅兼容vi的全部指令,並且