Spark 分散式環境搭建

阿新 • • 發佈：2020-12-31

Spark 分散式環境搭建

1. scala環境搭建

1）下載scala安裝包scala2.12.10.tgz安裝到 /usr/scala

[[email protected] scala]# tar -zxvf scala-2.12.10.tgz
[[email protected] scala]# ln -s scala-2.12.10.tgz scala

2）新增Scala環境變數，在/etc/profile中新增：

export SCALA_HOME=/usr/scala/scala
export PATH=$SCALA_HOME/bin:$PATH

3)儲存後重新整理

[[email protected] 
 scala]:~# source /etc/profile

4）使用scala -version命令確認

[[email protected] scala]# scala -version

2. Spark安裝

2.1 解壓

[[email protected] software]$ tar -zxvf spark-2.4.6-bin-2.6.0-cdh5.16.2.tgz -C ~/app/

軟連線

[[email protected] app]$ ln -s spark-2.4.6-bin-2.6.0-cdh5.16.2/ spark

2.2 修改環境配置檔案

[[email protected] 
 app]$ vi /home/hadoop/.bashrc

#spark

export SPARK_HOME=/home/hadoop/app/spark
export PATH=$PATH:$SPARK_HOME/bin

修改spark配置檔案

[[email protected] conf]$ cp spark-env.sh.template spark-env.sh


 export JAVA_HOME=/usr/java/jdk
 export SCALA_HOME=/usr/scala/scala
 export HADOOP_HOME=/home/hadoop/app/hadoop
 export HADOOP_CONF_DIR=/home/hadoop/app/hadoop/etc/hadoop
 export SPARK_MASTER_IP=192.168.1.148
 export SPARK_MASTER_HOST=192.168.1.148
 #export SPARK_LOCAL_IP=11.24.24.112
 #export SPARK_LOCAL_IP=11.24.24.113
 export SPARK_LOCAL_IP=0.0.0.0
 export SPARK_WORKER_MEMORY=1g
 export SPARK_WORKER_CORES=2
 export SPARK_HOME=/home/hadoop/app/spark
 export SPARK_DIST_CLASSPATH=$(/home/hadoop/app/hadoop/bin/hadoop classpath)

2.3 修改slaves

[[email protected] conf]$ mv slaves.template slaves
[[email protected] conf]$ vim slaves
刪除localhost
hadoop001
hadoop002
hadoop003

2.4 配置hadoop002 hadoop003 的配置檔案

#spark
export SPARK_HOME=/home/hadoop/app/spark
export PATH=$PATH:$SPARK_HOME/bin

source .bashrc

2.5 scp到hadoop002 hadoop003

[[email protected] ~]$ scp -r /home/hadoop/app/spark-2.4.6-bin-2.6.0-cdh5.16.2 hadoop002:/home/hadoop/app/
軟連線
[[email protected] app]$ ln -s spark-2.4.6-bin-2.6.0-cdh5.16.2/ spark

2.6 配置hadoop002 hadoop003 spark 的配置檔案

[[email protected] conf]$ pwd
/home/hadoop/app/spark/conf
[[email protected] conf]$ vim spark-env.sh
配置成他們自己的ip


export SPARK_LOCAL_IP=192.168.1.183
export SPARK_LOCAL_IP=192.168.1.175

3. Scala分發

[[email protected] usr]# scp -r /usr/scala/ hadoop002:/usr/

[[email protected] usr]# scp -r /usr/scala/ hadoop003:/usr/

[[email protected] usr]# scp /etc/profile hadoop002:/etc/
profile                                                                                                                   100% 2016   890.7KB/s   00:00
[[email protected] usr]# scp /etc/profile hadoop003:/etc/
profile       

[[email protected] ~]# source /etc/profile            
[[email protected] ~]# source /etc/profile

4. 啟動

[[email protected] spark]$ sbin/start-all.sh

Spark IDEA 配置

官網檢視spark版本與scala版本相匹配的版本

idea建立spark module 然後配置pom檔案

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>2.4.5</version>
    </dependency>
</dependencies>
<build>
    <plugins>
        <!-- 該外掛用於將Scala程式碼編譯成class檔案 -->
        <plugin>
            <groupId>net.alchim31.maven</groupId>
            <artifactId>scala-maven-plugin</artifactId>
            <version>3.2.2</version>
            <executions>
                <execution>
                    <!-- 宣告繫結到maven的compile階段 -->
                    <goals>
                        <goal>testCompile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-assembly-plugin</artifactId>
            <version>3.0.0</version>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

import之後下載安裝scala

https://www.scala-lang.org/download/

然後在idea的setting裡下載scala外掛
開啟Setting 裡的Plugins 搜尋scala 然後下載

如果提示安裝不成功選擇本地安裝開啟v*n下載更快

https://plugins.jetbrains.com/plugin/1347-scala

在setting的右上角選擇設定紐 install from disk

選好與idea 想匹配的版本

然後配置scala的jdk

ctrl+shift+alt + S

開啟Project structure
然後配置Global Libraries裡的scala jdk

Spark 分散式環境搭建

Spark 分散式環境搭建 1. scala環境搭建 1）下載scala安裝包scala2.12.10.tgz安裝到 /usr/scala

Spark 系列（二）—— Spark開發環境搭建

一、安裝Spark 1.1 下載並解壓官方下載地址：spark.apache.org/downloads.h… ，選擇 Spark 版本和對應的 Hadoop 版本後再下載：

VMware Hadoop2.5.2分散式環境搭建

>>> 1. Centos安裝主流虛擬機器軟體有VirtualBox和Vmware workstation，後者為商用軟體，主推後者，對於這兩款軟體的使用，在本文中就不贅述了，不會的同學可以參考https://github.com/juda

Spark叢集環境搭建——伺服器環境初始化

Spark也是屬於Hadoop生態圈的一部分，需要用到Hadoop框架裡的HDFS儲存和YARN排程，可以用Spark來替換MR做分散式計算引擎。

Hadoop偽分散式環境搭建

Hadoop偽分散式環境搭建1.準備環境（VMware、CentOS/node-14.rar） -解壓 node-14.rar這個壓縮包到指定目錄 -找到解壓後的nodc/nodc.vmx 這個檔案 -在VMware中彈出的警告框中選擇【獲取所有權】 -點選【開啟虛擬機器

PyCharm搭建Spark開發環境的實現步驟

1.安裝好JDK 下載並安裝好jdk-12.0.1_windows-x64_bin.exe，配置環境變數：新建系統變數JAVA_HOME，值為Java安裝路徑

Centos7系統 Hadoop+HBase+Spark環境搭建

必須前提條件JDK環境必須前提條件JDK環境必須前提條件JDK環境推薦通過yum源進行安裝。好處就是自動搞定環境變數

OAuth2.0分散式系統環境搭建

好好學習，天天向上本文已收錄至我的Github倉庫DayDayUP：github.com/RobodLee/DayDayUP，歡迎Star，更多文章請前往：目錄導航

FastDFS分散式檔案系統環境搭建及安裝過程解析

FastDFS：分散式檔案系統它對檔案進行管理，功能包括：檔案儲存、檔案同步、檔案訪問（檔案上傳、檔案下載）等，解決了大容量儲存和負載均衡的問題。

fabric雙主機，雙peer，分散式fabric環境搭建

功能是構建一個Fabric網路，其特點為，一個Orderer，一個Org(peer0和peer1) 主機A上執行orderer、ca、peer0，couchDB、cli

Spark專案實戰從0到1之（20）企業級資料倉庫構建（三）：資料採集模組環境搭建（1）

一、資料採集模組 Linux基本配置【1】Linux環境搭建 1).修改MAC地址方法1：vim /etc/udev/rules.d/70-persistent-net.rules

hadoop2.6.0版本搭建偽分散式環境

>>> 由於個人需要在自己的筆記本上搭建hadoop偽分佈環境，為了方便自己使用，如想看機器也看之前的一篇部落格：hadoop2.6.0版本叢集環境搭建

餘老師帶你學習大資料-Spark快速大資料處理第四章第二節Tez環境搭建

Tez環境搭建編譯Tez 由於在Tez-Yarn的官網上並沒有關於hadoop3.1.2對應的Tez-Yarn安裝包，所以我們進行鍼對性的編譯。先檢測Maven是否安裝了。

Jmeter 分散式測試環境搭建Windows下

Jmeter 分散式測試環境搭建 Windows10 Jmeter分散式執行原理： 1、Jmeter分散式測試時，選擇其中一臺作為排程機(master/Controller)，其它機器做為執行機(slave/Agent)。2、執行時，master會把指令碼傳送到每

python+selenium Grid2 分散式自動化測試環境搭建

一、Selenium Server 環境配置 1、selenium grid的組成與作用：由一個集線器hub和多個客戶機node組成，如果你的程式需要在不用的瀏覽器，不同的作業系統上測試，而且比較多的case需要多執行緒遠端執行，那麼一個比較

spark環境搭建

spark環境搭建 spark下載地址：http://archive.apache.org/dist/spark/ Scala下載地址：https://scala-lang.org/download/2.11.8.html

02_在Mac環境搭建Spark專案

在Mac環境搭建Spark專案 1. scala專案搭建 https://www.cnblogs.com/bajiaotai/p/15381309.html 2. 新增pom依賴

穀粒商城分散式基礎（二）—— 環境搭建

三、環境搭建 1、安裝 Linux 虛擬機器 1、下載&安裝 VirtualBox https://www.virtualbox.org/wiki/Downloads要開啟 CPU 虛擬化安裝過程傻瓜式下一步即可，建議修改安裝目錄，不要裝在C盤

穀粒商城分散式高階（一）—— 環境搭建（高階篇補充）（ElasticSearch）

1、ElasticSearch 開發環境搭建 1、docker 安裝 ElasticSearch　（1）先檢查一下虛擬機器的可用記憶體

Spark詳解(04) - Spark專案開發環境搭建

類別 [隨筆分類]Spark Spark詳解(04)- Spark專案開發環境搭建 Spark Shell僅在測試和驗證程式時使用的較多，在生產環境中，通常會在IDEA中編制程式，然後打成Jar包，提交到叢集，最常用的是建立一個Maven專

Spark 分散式環境搭建

Spark 分散式環境搭建

1. scala環境搭建

2. Spark安裝

3. Scala分發

4. 啟動

Spark IDEA 配置

相關推薦