大資料篇：叢集 Spark的安裝

阿新 • • 發佈：2018-11-10

叢集安裝Spark

這裡採用3臺機器（節點）作為例項來演示如何搭建Spark叢集，其中1臺機器（節點）作為Master節點，另外兩臺機器（節點）作為Slave節點（即作為Worker節點），主機名分別為Slave1和Slave2。在Master節點機器上，訪問Spark官方下載地址，按照如下圖下載。
20161205_010
下載完成後，執行如下命令：

sudo tar -zxf spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.0.2-bin-without-hadoop/ ./spark
sudo chown -R hadoop ./spark

配置環境變數

在Mster節點主機的終端中執行如下命令：

vi ~/.bashrc

在.bashrc新增如下配置：

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

執行如下命令使得配置立即生效：

source ~/.bashrc

Spark配置

在Master節點主機上進行如下操作：

配置slaves檔案
將 slaves.template 拷貝到 slaves
cd /usr/local/spark/
cp ./conf/slaves.template ./conf/slaves

slaves檔案設定Worker節點。編輯slaves內容,把預設內容localhost替換成如下內容：

slave1
slave2

配置spark-env.sh檔案
將 spark-env.sh.template 拷貝到 spark-env.sh

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

編輯spark-env.sh,新增如下內容：

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.1.104

SPARK_MASTER_IP 指定 Spark 叢集 Master 節點的 IP 地址；

配置好後，將Master主機上的/usr/local/spark資料夾複製到各個節點上。在Master主機上執行如下命令：

cd /usr/local/
tar -zcf ~/spark.master.tar.gz ./spark
cd ~

#將spark的tar包傳送到slave上
scp ./spark.master.tar.gz slave01:/home/hadoop
scp ./spark.master.tar.gz slave02:/home/hadoop

在slave1,slave2節點上分別執行下面同樣的操作：

sudo rm -rf /usr/local/spark/
sudo tar -zxf ~/spark.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/spark

啟動Spark叢集

啟動Hadoop叢集

啟動Spark叢集前，要先啟動Hadoop叢集。在Master節點主機上執行如下命令：

##啟動dfs及yarn

cd /usr/local/hadoop/
sbin/start-all.sh

啟動Spark叢集

啟動Master節點
在Master節點主機上執行如下命令：
```
cd /usr/local/spark/
sbin/start-master.sh
```
在Master節點上執行jps命令，可以看到多了個Master程序：
```
15093 Jps
14343 SecondaryNameNode
14121 NameNode
14891 Master
14509 ResourceManager
```
啟動所有Slave節點，在Master節點主機上執行如下命令：

sbin/start-slaves.sh

分別在slave01、slave02節點上執行jps命令，可以看到多了個Worker程序

37553 DataNode
37684 NodeManager
37876 Worker
37924 Jps

在瀏覽器上檢視Spark獨立叢集管理器的叢集資訊
在master主機上開啟瀏覽器，訪問http://master:8080,如下圖：

關閉Spark叢集

關閉Master節點

sbin/stop-master.sh

關閉Worker節點

sbin/stop-slaves.sh

關閉Hadoop叢集

cd /usr/local/hadoop/
sbin/stop-all.sh

大資料篇：叢集 Spark的安裝

叢集安裝Spark 這裡採用3臺機器（節點）作為例項來演示如何搭建Spark叢集，其中1臺機器（節點）作為Master節點，另外兩臺機器（節點）作為Slave節點（即作為Worker節點），主機名分別為Slave1和Slave2。在Master節點機器上，訪問Spark官方下載地址

大資料篇：Hive的安裝詳解

hive是什麼？由facebook開源，用於解決海量結構化日誌的資料統計；基於hadoop的一個數據倉庫工具，使用HDFS進行儲存並將結構化資料檔案對映成一張表，並提供類sql查詢的功能，其底層採用MR進行計算；本質是將HQL轉化成MR程式。

大資料篇：Spark安裝及測試PI的值

本文執行的具體環境如下： centos7.3 Hadoop 2.8.4 Java JDK 1.8 Spark 1.6.3 一、安裝Hadoop 關於Hadoop的安裝，這裡就不概述了！二、安裝 Spark 下載網址http://archive.apa

大資料篇：Spark 啟動時，提示 slave1 JAVA_HOME not set

Problem: [[email protected] ~]# start-slaves.sh slave1: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark-1.6.

大資料篇：Spark入門第一個Spark應用程式詳解：WordCount

任務要求編寫一個Spark應用程式，對某個檔案中的單詞進行詞頻統計。備註：本文spark的根目錄名：spark-1.6.3-bin-hadoop2.6 #準備工作 cd /usr/local/spark-1.6.3-bin-hadoop2.6 mkdir mycode

大資料篇：Spark-shell的測試及Scala獨立應用程式的編寫與sbt打包

一、在 Spark Shell 中執行程式碼 Spark shell 提供了簡單的方式來學習 API，並且提供了互動的方式來分析資料。你可以輸入一條語句，Spark shell會立即執行語句並返回結果，這就是我們所說的REPL（Read-Eval-Print Loop，互動式直譯器

大資料篇：Linux(Centos7)虛擬機器的安裝

不管是做大資料hadoop、spark等框架，或者初學linux，一臺或幾臺linux系統拿來玩玩是必不可少的。要想裝好Linux虛擬系統，VMware Workstation Pro和CentOs（Linux的一種）必不可少，這裡我裝的是VMware Workstation Pro 1

大資料篇：Hadoop叢集統一時間

修改系統時間，將時間改為一致（建議採用本方法）： 1.修改日期 date -s 11/2/2018 2.修改時間 date -s 20:40:00 3.檢查硬體（CMOS）時間 clock -r 4.這個修改在系統重啟後就失效了，因此為了將這個時間永久生效，需要

大資料篇：Spark

大資料篇：Spark Spark是什麼 Spark是一個快速（基於記憶體），通用，可擴充套件的計算引擎，採用Scala語言編寫。2009年誕生於UC Berkeley(加州大學伯克利分校，CAL的AMP實驗室)，2010年開源，2013年6月進入Apach孵化器，2014年成為Apach頂級專案，目

大資料篇：hadoop測試WordCount mapreduce出錯問題

[[email protected] ~]# hadoop jar /usr/local/hadoop-2.8.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.4.jar wordcount /data/wordcount /o

大資料篇：hadoop測試WordCount hdfs拒絕連線

18/11/02 11:50:03 INFO ipc.Client: Retrying connect to server: master/192.168.10.251:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCo

大資料篇：Elasticsearch分散式搜尋與分析引擎

Elasticsearch簡介 Elasticsearch是一個實時的分散式搜尋和分析引擎。它可以幫助你用前所未有的速度去處理大規模資料。它可以用於全文搜尋，結構化搜尋以及分析，當然你也可以將這三者進行組合。 Elasticsearch是一個建立在全文搜尋引擎 Apa

實時流Streaming大資料：Storm,Spark和Samza

當前有許多分散式計算系統能夠實時處理大資料，這篇文章是對Apache的三個框架進行比較，試圖提供一個快速的高屋建瓴地異同性總結。 Apache Storm 　　在Storm中，你設計的實時計算圖稱為toplogy，將其以叢集方式執行，其主節點會在工作節點之間分發程式碼

大資料篇：HDFS

HDFS HDFS是什麼? Hadoop分散式檔案系統(HDFS)是指被設計成適合執行在通用硬體(commodity hardware)上的分散式檔案系統（Distributed File System）。它和現有的分散式檔案系統有很多共同點。但同時，它和其他的分散式檔案系統的區別也是很明顯的。HDFS

大資料篇：Zookeeper

Zookeeper 1 Zookeeper概念 Zookeeper是什麼是一個基於觀察者設計模式的分散式服務管理框架，它負責和管理需要關心的資料，然後接受觀察者的註冊，一旦這些資料的狀態發生變化，Zookeeper就將負責通知已經在Zookeeper上註冊的那些觀察者做出相應的反應。 Zookee

大資料篇：Hbase

大資料篇：Hbase Hbase是什麼 Hbase是一個分散式、可擴充套件、支援海量資料儲存的NoSQL資料庫，物理結構儲存結構（K-V）。如果沒有Hbase 如何在大資料場景中，做到上億資料秒級返回。(有條件：單條資料，範圍資料) hbase.apache.org 1 Hbase結構及

大資料篇：一文讀懂@資料倉庫

# 大資料篇：一文讀懂@資料倉庫 ## 1 網路詞彙總結 - 人工智慧層的：智慧地球、智慧城市、智慧社會 - 企業層面的：數字網際網路，數字經濟、數字平臺、數字城市、數字政府； - 平臺層面的：物聯網，雲端計算，大資料，5G，人工智慧，機器智慧，深度學習，知識圖譜 - 技術層面的：資料倉庫、資料集市、大資

大資料篇：資料倉庫案例

# 離線資料倉庫 > 資料倉庫（Data WareHouse）是為企業所有決策制定過程，提供所有系統資料支援的戰略集合 > > 通過對資料倉庫中資料的分析，可以幫助企業，改進業務流程、控制、成本、提高產品質量等 > > 資料倉庫，並不是資料最終目的地，而是為資料最終的目的地做好準備：清洗、轉義、分類、重組、

大資料篇：一文讀懂@資料倉庫(PPT文字版)

# 大資料篇：一文讀懂@資料倉庫 ![](https://img2020.cnblogs.com/blog/1235870/202007/1235870-20200724172712341-435422432.png) ![](https://img2020.cnblogs.com/blog/1235870

大資料：spark叢集搭建

建立spark使用者組，組ID1000 groupadd -g 1000 spark 在spark使用者組下建立使用者ID 2000的spark使用者獲取視訊中文件資料及完整視訊的夥伴請加QQ群：947967114useradd -u 2000 -g spark spark 設定密碼 passwd

大資料篇：叢集 Spark的安裝

叢集安裝Spark

配置環境變數

Spark配置

啟動Spark叢集

啟動Hadoop叢集

啟動Spark叢集

關閉Spark叢集

相關推薦