Spark學習之路五、Spark偽分散式安裝

阿新 • • 發佈：2021-01-11

正文

一、JDK的安裝

JDK使用root使用者安裝

1.1　上傳安裝包並解壓

[root@hadoop1 soft]# tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/

1.2　配置環境變數

[root@hadoop1 soft]# vi /etc/profile

#JAVA
export JAVA_HOME=/usr/local/jdk1.8.0_73
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib 
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin

1.3　驗證Java版本

[root@hadoop1 soft]# java -version

回到頂部

二、配置配置ssh localhost

使用hadoop使用者安裝

2.1　檢測

正常情況下，本機通過ssh連線自己也是需要輸入密碼的

2.2　生成私鑰和公鑰祕鑰對

[hadoop@hadoop1 ~]$ ssh-keygen -t rsa

2.3　將公鑰新增到authorized_keys

[hadoop@hadoop1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

2.4　賦予authorized_keys檔案600的許可權

[hadoop@hadoop1 ~]$ chmod 600 ~/.ssh/authorized_keys

2.5　修改Linux對映檔案(root使用者)

[root@hadoop1 ~]$ vi /etc/hosts

2.6　驗證

[hadoop@hadoop1 ~]$ ssh hadoop1

此時不需要輸入密碼，免密登入設定成功。

回到頂部

三、安裝Hadoop-2.7.5

使用hadoop使用者

3.1　上傳解壓縮

[hadoop@hadoop1 ~]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C apps/

3.2　建立安裝包對應的軟連線

為解壓的hadoop包建立軟連線

[hadoop@hadoop1 ~]$ cd apps/
[hadoop@hadoop1 apps]$ ll
總用量 4
drwxr-xr-x. 9 hadoop hadoop 4096 12月 24 13:43 hadoop-2.7.5
[hadoop@hadoop1 apps]$ ln -s hadoop-2.7.5/ hadoop

3.3　修改配置檔案

進入/home/hadoop/apps/hadoop/etc/hadoop/目錄下修改配置檔案

（1）修改hadoop-env.sh

[hadoop@hadoop1 hadoop]$ vi hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_73

（2）修改core-site.xml

[hadoop@hadoop1 hadoop]$ vi core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop1:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/hadoop/data/hadoopdata</value>
        </property>
</configuration>

（3）修改hdfs-site.xml

[hadoop@hadoop1 hadoop]$ vi hdfs-site.xml

dfs的備份數目，單機用1份就行

        <property>
                <name>dfs.namenode.name.dir</name>
                <value>/home/hadoop/data/hadoopdata/name</value>
                <description>為了保證元資料的安全一般配置多個不同目錄</description>
        </property>

        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/home/hadoop/data/hadoopdata/data</value>
                <description>datanode 的資料儲存目錄</description>
        </property>

        <property>
                <name>dfs.replication</name>
                <value>2</value>
                <description>HDFS 的資料塊的副本儲存個數, 預設是3</description>
        </property>

（4）修改mapred-site.xml

[hadoop@hadoop1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[hadoop@hadoop1 hadoop]$ vi mapred-site.xml

mapreduce.framework.name：指定mr框架為yarn方式,Hadoop二代MP也基於資源管理系統Yarn來執行。

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

（5）修改yarn-site.xml

[hadoop@hadoop1 hadoop]$ vi yarn-site.xml

 　　　　<property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>YARN 叢集為 MapReduce 程式提供的 shuffle 服務</description>
        </property>

3.4　配置環境變數

千萬注意：

1、如果你使用root使用者進行安裝。 vi /etc/profile 即可系統變數

2、如果你使用普通使用者進行安裝。 vi ~/.bashrc 使用者變數

[hadoop@hadoop1 ~]$ vi .bashrc

#HADOOP_HOME
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使環境變數生效

[hadoop@hadoop1 bin]$ source ~/.bashrc

3.5　檢視hadoop版本

[hadoop@hadoop1 ~]$ hadoop version

3.6　建立資料夾

資料夾的路徑參考配置檔案hdfs-site.xml裡面的路徑

[hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/name
[hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/data

3.7　Hadoop的初始化

[hadoop@hadoop1 ~]$ hadoop namenode -format

3.8　啟動HDFS和YARN

[hadoop@hadoop1 ~]$ start-dfs.sh
[hadoop@hadoop1 ~]$ start-yarn.sh

3.9　檢查WebUI

瀏覽器開啟埠50070：http://hadoop1:50070

其他埠說明：
port 8088: cluster and all applications
port 50070: Hadoop NameNode
port 50090: Secondary NameNode
port 50075: DataNode

回到頂部

四、Scala的安裝（可選）

使用root安裝

4.1　下載

Scala下載地址http://www.scala-lang.org/download/all.html

選擇對應的版本，此處在Linux上安裝，選擇的版本是scala-2.11.8.tgz

4.2　上傳解壓縮

[root@hadoop1 hadoop]# tar -zxvf scala-2.11.8.tgz -C /usr/local/

4.3　配置環境變數

[root@hadoop1 hadoop]# vi /etc/profile

#Scala
export SCALA_HOME=/usr/local/scala-2.11.8
export PATH=$SCALA_HOME/bin:$PATH

儲存並使其立即生效

[root@hadoop1 scala-2.11.8]# source /etc/profile

4.4　驗證是否安裝成功

[root@hadoop1 ~]# scala -version

回到頂部

五、Spark的安裝

5.1　下載安裝包

下載地址：

http://spark.apache.org/downloads.html

http://mirrors.hust.edu.cn/apache/

https://mirrors.tuna.tsinghua.edu.cn/apache/

5.2　上傳解壓縮

[hadoop@hadoop1 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/

5.3　為解壓包建立一個軟連線

[hadoop@hadoop1 ~]$ cd apps/
[hadoop@hadoop1 apps]$ ls
hadoop  hadoop-2.7.5  spark-2.3.0-bin-hadoop2.7
[hadoop@hadoop1 apps]$ ln -s spark-2.3.0-bin-hadoop2.7/ spark

5.4　進入spark/conf修改配置檔案

[hadoop@hadoop1 apps]$ cd spark/conf/

複製spark-env.sh.template並重命名為spark-env.sh，並在檔案最後新增配置內容

[hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh
[hadoop@hadoop1 conf]$ vi spark-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_73
export SCALA_HOME=/usr/share/scala-2.11.8
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077

5.5　配置環境變數

[hadoop@hadoop1 conf]$ vi ~/.bashrc

#SPARK_HOME
export SPARK_HOME=/home/hadoop/apps/spark
export PATH=$PATH:$SPARK_HOME/bin

儲存使其立即生效

[hadoop@hadoop1 conf]$ source ~/.bashrc

5.6　啟動Spark

[hadoop@hadoop1 ~]$ ~/apps/spark/sbin/start-all.sh

5.7　檢視程序

5.8　檢視web介面

http://hadoop1:8080/

Spark學習之路五、Spark偽分散式安裝

目錄一、JDK的安裝 1.1　上傳安裝包並解壓 1.2　配置環境變數 1.3　驗證Java版本二、配置配置ssh localhost

Spark學習之路二、Spark HA叢集的分散式安裝

目錄一、下載Spark安裝包 1、從官網下載 2、從微軟的映象站下載 3、從清華的映象站下載

Spark學習之路四、Spark的廣播變數和累加器

目錄一、概述二、廣播變數broadcast variable 2.1　為什麼要將變數定義成廣播變數？

Spark學習之路六、Spark Transformation和Action

目錄 Transformation運算元基本的初始化一、map、flatMap、mapParations、mapPartitionsWithIndex

Spark學習之路七、Spark 執行流程

目錄一、Spark中的基本概念二、Spark的執行流程 2.1　Spark的基本執行流程三、Spark在不同叢集中的執行架構

Spark學習之路八、SparkCore的調優之開發調優

目錄調優概述原則一：避免建立重複的RDD 一個簡單的例子原則二：儘可能複用同一個RDD

Spark學習之路十一、SparkCore的調優之Spark記憶體模型

目錄一、概述二、堆內和堆外記憶體規劃 2.1　堆內記憶體 2.2　堆外記憶體 2.3　記憶體管理介面

前端修仙之路-五、async/await使你的程式碼更簡潔

有時候，我們在編寫JS程式碼的時候很細化使用巢狀回撥函式，但如果有多層巢狀的話，，會使專案的程式碼冗長，複雜和混亂。現在ES8提供了一種用於處理這些操作的新語法，它甚至可以將最複雜的非同步操作轉為簡潔易讀的

前端的學習之路：初級CSS---偽元素

技術標籤：初級CSScss前端偽元素 <!DOCTYPE html> <html lang="en"> <head>

CAPL學習之路-資訊、類的例項化、陣列、結構體、列舉、字典

1.獲取工程資訊 %NODE_NAME% 模擬節點名稱 on key \'a\' { write(\"the node name: %NODE_NAME%\");

技術管理之路五、管理溝通：管理的必修課！

由工程師轉變為管理者，最頭痛的問題就是溝通，以前只和有規律的程式碼打交道，而現在對內、對外、對上級全方位的溝通協調，面對很多不確定性，這是最大的困惑點。

CDA資料分析師學習之路第3期 | Spark RDD的轉換操作舉例

Spark RDD中的操作非常豐富，有80多種針對資料的操作。其中最重要的是Transformation（轉換操作）和Action（執行操作）兩類。其中轉換操作採用了惰性策略，轉換操作只生成元資料，相當於對業務邏輯的一種抽象描述，並

Spark學習筆記（一）Spark初識【特性、組成、應用】

本文例項講述了Spark基本特性、組成、應用。分享給大家供大家參考，具體如下：

前端的學習之路：初級CSS---使用after偽類解決高度塌陷問題

技術標籤：初級CSScss前端使用after偽類解決高度塌陷問題 <!DOCTYPE html> <html lang="en">

FastAPI 學習之路（十五）響應狀態碼

系列文章：　　FastAPI 學習之路（一）fastapi--高效能web開發框架　　FastAPI 學習之路（二）

FastAPI 學習之路（二十五）路徑操作裝飾器依賴項

有時，我們並不需要在路徑操作函式中使用依賴項的返回值。或者說，有些依賴項不返回值。

程式設計日記：Java學習之路（五）

5.函式和遞迴： 5.1 函式：什麼是函式？ Java中的函式是一組程式碼，用來完成一個特定的任務。

FastAPI 學習之路（四十九）WebSockets（五）修復介面測試中的問題

其實程式碼沒有問題，但是我們忽略了一點，就是我們在正常的開發中，肯定是遇到這樣的情況，我們頻繁的有客戶端連結，斷開連結，我們需要統一的管理起來，那麼我們應該如何去管理呢，其實這個時候，我們要去宣告一個

FastAPI 學習之路（五十）WebSockets（六）聊天室完善

本次是WebSockets的第六次分享了，我們這次只是對於之前的功能做下優化，順便利用下之前的操作資料的介面，使用下資料庫的練習。

FastAPI 學習之路（五十二）WebSockets(八)接受/傳送json格式訊息

相對於之前的text的訊息來說，我們之前傳送的訊息都是text的居多，那麼對於text格式的訊息來說，我們處理起來，尤其是後端要麻煩的多，那麼我們可不可以傳遞json格式的，對於前後端來說都好處理的一種格式的訊息，那

Spark學習之路 五、Spark偽分散式安裝

一、JDK的安裝

1.1 上傳安裝包並解壓

1.2 配置環境變數

1.3 驗證Java版本

二、配置配置ssh localhost

2.1 檢測

2.2 生成私鑰和公鑰祕鑰對

2.3 將公鑰新增到authorized_keys

2.4 賦予authorized_keys檔案600的許可權

2.5 修改Linux對映檔案(root使用者)

2.6 驗證

三、安裝Hadoop-2.7.5

3.1 上傳解壓縮

3.2 建立安裝包對應的軟連線

3.3 修改配置檔案

（1）修改hadoop-env.sh

（2）修改core-site.xml

（3）修改hdfs-site.xml

（4）修改mapred-site.xml

（5）修改yarn-site.xml

3.4 配置環境變數

3.5 檢視hadoop版本

3.6 建立資料夾

3.7 Hadoop的初始化

3.8 啟動HDFS和YARN

3.9 檢查WebUI

四、Scala的安裝（可選）

4.1 下載

4.2 上傳解壓縮

4.3 配置環境變數

4.4 驗證是否安裝成功

五、Spark的安裝

5.1 下載安裝包

5.2 上傳解壓縮

5.3 為解壓包建立一個軟連線

5.4 進入spark/conf修改配置檔案

5.5 配置環境變數

5.6 啟動Spark

5.7 檢視程序

5.8 檢視web介面

相關推薦

Spark學習之路五、Spark偽分散式安裝

1.1　上傳安裝包並解壓

1.2　配置環境變數

1.3　驗證Java版本

2.1　檢測

2.2　生成私鑰和公鑰祕鑰對

2.3　將公鑰新增到authorized_keys

2.4　賦予authorized_keys檔案600的許可權

2.5　修改Linux對映檔案(root使用者)

2.6　驗證

3.1　上傳解壓縮

3.2　建立安裝包對應的軟連線

3.3　修改配置檔案

3.4　配置環境變數

3.5　檢視hadoop版本

3.6　建立資料夾

3.7　Hadoop的初始化

3.8　啟動HDFS和YARN

3.9　檢查WebUI

4.1　下載

4.2　上傳解壓縮

4.3　配置環境變數

4.4　驗證是否安裝成功

5.1　下載安裝包

5.2　上傳解壓縮

5.3　為解壓包建立一個軟連線

5.4　進入spark/conf修改配置檔案

5.5　配置環境變數

5.6　啟動Spark

5.7　檢視程序

5.8　檢視web介面