Spark的Standalone模式安裝部署
Spark執行模式
Spark 有很多種模式,最簡單就是單機本地模式,還有單機偽分散式模式,複雜的則執行在叢集中,目前能很好的執行在 Yarn和 Mesos 中,當然 Spark 還有自帶的 Standalone 模式,對於大多數情況 Standalone 模式就足夠了,如果企業已經有 Yarn 或者 Mesos 環境,也是很方便部署的。
- local(本地模式):常用於本地開發測試,本地還分為local單執行緒和local-cluster多執行緒;
- standalone(叢集模式):典型的Mater/slave模式,不過也能看出Master是有單點故障的;Spark支援ZooKeeper來實現 HA
- on yarn(叢集模式): 執行在 yarn 資源管理器框架之上,由 yarn 負責資源管理,Spark 負責任務排程和計算
- on mesos(叢集模式): 執行在 mesos 資源管理器框架之上,由 mesos 負責資源管理,Spark 負責任務排程和計算
- on cloud(叢集模式):比如 AWS 的 EC2,使用這個模式能很方便的訪問 Amazon的 S3;Spark 支援多種分散式儲存系統:HDFS 和 S3
Spark Standalone叢集部署
準備工作
- 這裡我下載的是Spark的編譯版本,否則需要事先自行編譯
- Spark需要Hadoop的HDFS作為持久化層,所以在安裝Spark之前需要安裝Hadoop,這裡Hadoop的安裝就不介紹了,給出一個教程
- 實現建立hadoop使用者,Hadoop、Spark等程式都在該使用者下進行安裝
- ssh無密碼登入,Spark叢集中各節點的通訊需要通過ssh協議進行,這需要事先進行配置。通過在hadoop使用者的
.ssh
目錄下將其他使用者的id_rsa.pub
公鑰檔案內容拷貝的本機的authorized_keys
檔案中,即可事先無登入通訊的功能 - Java環境的安裝,同時將JAVA_HOME、CLASSPATH等環境變數放到主目錄的
.bashrc
,執行source .bashrc
使之生效
部署配置
這裡配置工作需要以下幾個步驟:
- 解壓Spark二進位制壓縮包
- 配置conf/spark-env.sh檔案
- 配置conf/slave檔案
下面具體說明一下:
- 配置Spark的執行環境,將spark-env.sh.template模板檔案複製成spark-env.sh,然後填寫相應需要的配置內容:
1
2
3
4
5export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORDER_INSTANCES=1
export SPARK_WORKER_MEMORY=3g
其他選項內容請參照下面的選項說明:
1 |
# Options for the daemons used in the standalone deploy mode: |
-
conf/slave
檔案使用者分散式節點的配置,這裡只需要在slave檔案中寫入各節點的主機名即可 -
將以上內容都配置好了,將這個spark目錄拷貝到各個節點
scp -r spark [email protected]:~
-
接下來就可以啟動叢集了,在Spark目錄中執行
sbin/start-all.sh
,然後可以通過netstat -nat
命令檢視埠7077的程序,還可以通過瀏覽器訪問hadoop1:8080瞭解叢集的概況
Spark Client部署
Spark Client的作用是,事先搭建起Spark叢集,然後再物理機上部署客戶端,然後通過該客戶端提交任務給Spark叢集。
由於上面介紹了Standalone分散式叢集是如何搭建的,這裡只需將叢集上的spark資料夾拷貝過來。
最簡單的Spark客戶端訪問叢集的方式就是通過Spark shell的方式:bin/spark-shell --master spark://hadoop1:7077
這樣就可以訪問叢集了。
這樣在瀏覽器的Spark叢集介面上就可以看到Running Applications一欄中有Spark shell的應用在執行。
Spark Standalone偽分散式部署
偽分散式是在一臺機器上進行部署來模擬分散式的叢集,這裡部署的過程和Standalone叢集的部署是類似的,事前的工作都是一樣的,這裡只是在配置檔案中做相應的修改就可以了。
這裡還是配置這兩個檔案:
配置conf/spark-env.sh檔案
配置conf/slave檔案
-
修改spark-env.sh檔案,修改master的ip,這裡主機名和使用者ip分別在
/etc/hostname
和/etc/hosts
檔案中進行配置1
2
3
4
5export SPARK_MASTER_IP=jason
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORDER_INSTANCES=1
export SPARK_WORKER_MEMORY=3g -
slave檔案中,填寫自己的主機名,比如我的主機名jason
相關推薦
2018-08-12期 Hbase本地模式安裝部署
native common rwx 需要 XML www star lib 模式搭建 說明:Hbase部署模式有以下三種(1)本地模式:本地模式不依賴於HDFS存儲,將文件存儲到操作系統本地目錄,好處是我們不需要搭建HDFS集群,即可學些HBase相關命令及客戶端操作。(2
2018-08-13期 Hbase偽分布模式安裝部署
pac binding 裝包 ava image 沒有 peer zookeeper ive 說明:Hbase部署模式有以下三種(1)本地模式:本地模式不依賴於HDFS存儲,將文件存儲到操作系統本地目錄,好處是我們不需要搭建HDFS集群,即可學些HBase相關命令及客戶端操
【Hadoop 分布式部署 八:分布式協作框架Zookeeper架構功能講解 及本地模式安裝部署和命令使用 】
.gz 權限 實現 creat info 應用 data 就是 數據結構 What is Zookeeper 是一個開源的分布式的,為分布式應用提供協作服務的Apache項目 提供一個簡單的原語集合,以便與分布式應用可以在他之上構建更高層次的同步服務
【Spark】Spark的Standalone模式安裝部署
Spark執行模式 Spark 有很多種模式,最簡單就是單機本地模式,還有單機偽分散式模式,複雜的則執行在叢集中,目前能很好的執行在 Yarn和 Mesos 中,當然 Spark 還有自帶的 Standalone 模式,對於大多數情況 Standalone 模
(四): Flink1.6.1 standalone叢集模式安裝部署,幾個常用引數配置
NameNode檢查點異常 安裝flink之前,觀察到一個NameNode檢查點異常: 沒去找官方解釋,按照此文的第4點解決了問題: namenode的Cluster ID 與 secondnamenode的Cluster ID 不一致,對比/dfs/nn
Spark的Standalone模式安裝部署
Spark執行模式 Spark 有很多種模式,最簡單就是單機本地模式,還有單機偽分散式模式,複雜的則執行在叢集中,目前能很好的執行在 Yarn和 Mesos 中,當然 Spark 還有自帶的 Standalone 模式,對於大多數情況 Standalone 模式就足夠了,如
hadoop記錄-[Flink]Flink三種運行模式安裝部署以及實現WordCount(轉載)
bject def ast atm jar int args 獲取 wordcount [Flink]Flink三種運行模式安裝部署以及實現WordCount 前言 Flink三種運行方式:Local、Standalone、On Yarn。成功部署後分別用Scala和J
手把手部署CDH(5.12.1)完全離線模式安裝超級詳細攻略
前言 搭建小型BI大資料計算叢集,由於資源有限(你懂的)部署的模式為CDH官方建議的最低配版本,沒有配備HA,(我們還是相信惠普的伺服器 此處手動滑稽)。 CDH背景 CDH (Cloudera's Distribution, including Apache Hado
Elasticsearch學習(1)之安裝部署(單機多節點模式)
Elasticsearch叢集環境部署(單機多節點) 1. 環境準備 ps: 由於elasticsearch 2.x版本不支援bigdesk外掛,本文采用1.7.3版本 1.1 安裝jdk 下載好的jdk-8u77-linux-x64.tar.
Hadoop安裝部署的三種模式
hadoop安裝部署有以下三種模式: 本地模式 偽分佈模式 全分佈模式 安裝之前操作: 1.修改主機名,設定好IP 2.設定hadoop的環境變數: 命令:vi ~/.bash_profile ``` ### add for ha
fuel6.0安裝部署
信息 記錄 修改 ont pan compute spl auto 網絡配置 在經過一系列安裝openstack方式後,個人覺得fuel的安裝方式相對簡易,接下來記錄下安裝部署fuel6.0的過程。本教程適合想把fuel6.0部署後,雲主機需要連接外網的需求。 安裝
【原創 Spark動手實踐 1】Hadoop2.7.3安裝部署實際動手
dmi 遠程 nag proc host 一個 error img 連接 目錄: 第一部分:操作系統準備工作: 1. 安裝部署CentOS7.3 1611 2. CentOS7軟件安裝(net-tools, wget, vim等) 3. 更新CentOS
LNP 安裝部署
lnp一、安裝nginx1.安裝依賴包:yum install openssl openssl-devel pcre GeoIP perl-devel perl perl-ExtUtils-Embed GeoIP-devel libatomic libatomic_ops-devel2.安裝zlibtar -
Unity3D中tolua的“安裝部署和使用“教程
替換 部署 ref 比對 text asset gin 系統 .com 棄坑Cocos2d-x,轉戰Unity3D 考慮到項目一定會使用熱更,花了不少時間比對了lua的支持方案,最後定為tolua,原因不解釋。 俗話說,萬事開頭難,中間難,最後難……我反正是沒有找到如何安裝
hadoop分布式安裝部署具體視頻教程(網盤附配好環境的CentOS虛擬機文件/hadoop配置文件)
down hdf lan nag home 開機啟動 prop baidu ifcfg-eth 參考資源下載:http://pan.baidu.com/s/1ntwUij3視頻安裝教程:hadoop安裝.flvVirtualBox虛擬機:hadoop.part1-part
Confluence 安裝部署
all extract pro 技術分享 create read 1-1 expr starting Confluence安裝與部署 下載安裝包及破解包 安裝包下載地址:https://www.atlassian.com/software/confluence/down
CentOS7 Tools安裝步驟(命令模式安裝)
編譯工具 .com 共享 cer 需要 顯示 mes 沒有 重新 1、首先啟動CentOS 7,在VMware中點擊上方“VM”,點擊“Install VMware Tools...”(如已安裝則顯示“Reinstall VMware Tools...”)。 2、在命令行輸
ZooKeeper安裝部署
sa0x01 簡介Zookeeper是一個很好的集群管理工具,被大量用於分布式計算。如Hadoop以及Storm系統中。Apache ZooKeeper是一個為分布式應用所設計開源協調服務,其設計目是為了減輕分布式應用程序所承擔的協調任務。可以為用戶提供同步、配置管理、分組和命名服務。0x02 環境說明在三臺
zookeeper與kafka安裝部署及java環境搭建
3.4 項目目錄 tin bytes result zxvf util ise cat 1. ZooKeeper安裝部署 本文在一臺機器上模擬3個zk server的集群安裝。 1.1. 創建目錄、解壓 cd /usr/ #創建項目目錄 mkdir zookeepe
ELK 日誌服務器安裝部署
搜索引擎 應用程序 服務器 安全性 數據源 高清原文 烏龜運維 wuguiyunwei.com簡單介紹:ELK是三個開源工具組成,簡單解釋如下:Elasticsearch是個開源分布式搜索引擎,它的特點有:分布式,零配置,自動發現,索引自動分片,索引副本機制,restful風格接口,多數據