Spark學習之路 五、Spark偽分散式安裝
目錄
正文
回到頂部一、JDK的安裝
JDK使用root使用者安裝
1.1 上傳安裝包並解壓
[root@hadoop1 soft]# tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/
1.2 配置環境變數
[root@hadoop1 soft]# vi /etc/profile
#JAVA export JAVA_HOME=/usr/local/jdk1.8.0_73 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
1.3 驗證Java版本
[root@hadoop1 soft]# java -version回到頂部
二、配置配置ssh localhost
使用hadoop使用者安裝
2.1 檢測
正常情況下,本機通過ssh連線自己也是需要輸入密碼的
2.2 生成私鑰和公鑰祕鑰對
[hadoop@hadoop1 ~]$ ssh-keygen -t rsa
2.3 將公鑰新增到authorized_keys
[hadoop@hadoop1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
2.4 賦予authorized_keys檔案600的許可權
[hadoop@hadoop1 ~]$ chmod 600 ~/.ssh/authorized_keys
2.5 修改Linux對映檔案(root使用者)
[root@hadoop1 ~]$ vi /etc/hosts
2.6 驗證
[hadoop@hadoop1 ~]$ ssh hadoop1
此時不需要輸入密碼,免密登入設定成功。
回到頂部三、安裝Hadoop-2.7.5
使用hadoop使用者
3.1 上傳解壓縮
[hadoop@hadoop1 ~]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C apps/
3.2 建立安裝包對應的軟連線
為解壓的hadoop包建立軟連線
[hadoop@hadoop1 ~]$ cd apps/ [hadoop@hadoop1 apps]$ ll 總用量 4 drwxr-xr-x. 9 hadoop hadoop 4096 12月 24 13:43 hadoop-2.7.5 [hadoop@hadoop1 apps]$ ln -s hadoop-2.7.5/ hadoop
3.3 修改配置檔案
進入/home/hadoop/apps/hadoop/etc/hadoop/目錄下修改配置檔案
(1)修改hadoop-env.sh
[hadoop@hadoop1 hadoop]$ vi hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_73
(2)修改core-site.xml
[hadoop@hadoop1 hadoop]$ vi core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop1:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/data/hadoopdata</value> </property> </configuration>
(3)修改hdfs-site.xml
[hadoop@hadoop1 hadoop]$ vi hdfs-site.xml
dfs的備份數目,單機用1份就行
<property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop/data/hadoopdata/name</value> <description>為了保證元資料的安全一般配置多個不同目錄</description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop/data/hadoopdata/data</value> <description>datanode 的資料儲存目錄</description> </property> <property> <name>dfs.replication</name> <value>2</value> <description>HDFS 的資料塊的副本儲存個數, 預設是3</description> </property>
(4)修改mapred-site.xml
[hadoop@hadoop1 hadoop]$ cp mapred-site.xml.template mapred-site.xml [hadoop@hadoop1 hadoop]$ vi mapred-site.xml
mapreduce.framework.name:指定mr框架為yarn方式,Hadoop二代MP也基於資源管理系統Yarn來執行 。
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
(5)修改yarn-site.xml
[hadoop@hadoop1 hadoop]$ vi yarn-site.xml
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> <description>YARN 叢集為 MapReduce 程式提供的 shuffle 服務</description> </property>
3.4 配置環境變數
千萬注意:
1、如果你使用root使用者進行安裝。 vi /etc/profile 即可 系統變數
2、如果你使用普通使用者進行安裝。 vi ~/.bashrc 使用者變數
[hadoop@hadoop1 ~]$ vi .bashrc
#HADOOP_HOME
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:
使環境變數生效
[hadoop@hadoop1 bin]$ source ~/.bashrc
3.5 檢視hadoop版本
[hadoop@hadoop1 ~]$ hadoop version
3.6 建立資料夾
資料夾的路徑參考配置檔案hdfs-site.xml裡面的路徑
[hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/name [hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/data
3.7 Hadoop的初始化
[hadoop@hadoop1 ~]$ hadoop namenode -format
3.8 啟動HDFS和YARN
[hadoop@hadoop1 ~]$ start-dfs.sh
[hadoop@hadoop1 ~]$ start-yarn.sh
3.9 檢查WebUI
瀏覽器開啟埠50070:http://hadoop1:50070
其他埠說明:
port 8088: cluster and all applications
port 50070: Hadoop NameNode
port 50090: Secondary NameNode
port 50075: DataNode
四、Scala的安裝(可選)
使用root安裝
4.1 下載
Scala下載地址http://www.scala-lang.org/download/all.html
選擇對應的版本,此處在Linux上安裝,選擇的版本是scala-2.11.8.tgz
4.2 上傳解壓縮
[root@hadoop1 hadoop]# tar -zxvf scala-2.11.8.tgz -C /usr/local/
4.3 配置環境變數
[root@hadoop1 hadoop]# vi /etc/profile
#Scala export SCALA_HOME=/usr/local/scala-2.11.8 export PATH=$SCALA_HOME/bin:$PATH
儲存並使其立即生效
[root@hadoop1 scala-2.11.8]# source /etc/profile
4.4 驗證是否安裝成功
[root@hadoop1 ~]# scala -version回到頂部
五、Spark的安裝
5.1 下載安裝包
下載地址:
http://spark.apache.org/downloads.html
http://mirrors.hust.edu.cn/apache/
https://mirrors.tuna.tsinghua.edu.cn/apache/
5.2 上傳解壓縮
[hadoop@hadoop1 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/
5.3 為解壓包建立一個軟連線
[hadoop@hadoop1 ~]$ cd apps/ [hadoop@hadoop1 apps]$ ls hadoop hadoop-2.7.5 spark-2.3.0-bin-hadoop2.7 [hadoop@hadoop1 apps]$ ln -s spark-2.3.0-bin-hadoop2.7/ spark
5.4 進入spark/conf修改配置檔案
[hadoop@hadoop1 apps]$ cd spark/conf/
複製spark-env.sh.template並重命名為spark-env.sh,並在檔案最後新增配置內容
[hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh [hadoop@hadoop1 conf]$ vi spark-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_73 export SCALA_HOME=/usr/share/scala-2.11.8 export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5 export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop export SPARK_MASTER_IP=hadoop1 export SPARK_MASTER_PORT=7077
5.5 配置環境變數
[hadoop@hadoop1 conf]$ vi ~/.bashrc
#SPARK_HOME export SPARK_HOME=/home/hadoop/apps/spark export PATH=$PATH:$SPARK_HOME/bin
儲存使其立即生效
[hadoop@hadoop1 conf]$ source ~/.bashrc
5.6 啟動Spark
[hadoop@hadoop1 ~]$ ~/apps/spark/sbin/start-all.sh