Spark-Unit1-spark概述與安裝部署

阿新 • • 發佈：2019-01-12

一、Spark概述

　　spark官網：spark.apache.org

　　Spark是用的大規模資料處理的統一計算引擎，它是為大資料處理而設計的快速通用的計算引擎。spark誕生於加油大學伯克利分校AMP實驗室。

　　mapreduce（MR）與spark的對比：

　　　　1.MR在計算中產生的結果儲存在磁碟上，spark儲存在記憶體中；

　　　　2.磁碟執行spark的速度是MR的10倍，記憶體執行spark是MR的100多倍；

　　　　3.spark並不是為了替代Hadoop，而是為了補充Hadoop；

　　　　4.spark沒有儲存，但他可以繼承HDFS。

　　Spark啟用的是記憶體分散式資料集，而Scala語言可以輕鬆的處理分散式資料集，Scala語言可以說是為Spark而生的，而Spark 的出現推動了Scala語言的發展。

二、Spark特點

　　1.速度快

　　　　磁碟執行spark的速度是MR的10倍，記憶體執行spark是MR的100多倍；

　　　　Spark使用最先進的DAG排程程式，查詢優化器和物理執行引擎，實現批處理和流處理的高效能。

　　　　註釋：DAG：有向無環圖，上一個RDD的計算結果作為下一個RDD計算的初始值，可以迭代成千上萬次。

　　　　　　查詢優化器：指的是spark sql

　　　　　　　批處理：spark sql

　　　　　　　流處理：spark streaming

　　2.便於使用

　　　　支援Java/Scala/python/R/SQL編寫應用程式

　　3.通用性高

　　　　不僅支援批處理、流處理，

　　　　還支援機器學習（MLlib:machine learning library）和圖形計算（GraphX）

　　4.相容性高

　　　　Spark執行在Hadoop，Apache Mesos。Kubernetes，獨立或雲端。它可以訪問各種資料來源。

　　　　Spark實現了Standalone模式作為內建的資源管理和排程框架。

三、Spark的安裝部署

　　1.準備工作：

　　　　新建三臺虛擬機器（建議2G記憶體，1G也可以）/使用遠端連線工具連線 / 關閉防火牆 / 修改主機名

　　　　/ 修改對映檔案 / 設定免密登陸 / 安裝jdk（1.8以上版本）

　　2.在官網下載spark 安裝包（我是2.2.0版本）

　　　　然後上傳到Linux系統，解壓，刪包，重新命名

　　3.修改spark部分配置檔案

　　　　進入spark->conf

　　　　1）重新命名spark-env.sh.template 為 spark-env.sh，進入該檔案

　　　　新增配置資訊：

　　　　export JAVA_HOME=/root/sk/jdk1.8.0_132　　　　//jdk安裝路徑

　　　　export SPARK_MASTER_HOST=spark-01　　　　//spark主節點機器名

　　　　export SPARK_MASTER_PORT=7077　　　　　 //spark主機點埠號

　　　　2）重新命名slaves.template(好像是這個)為slaves，進入該檔案

　　　　刪除最後一行“localhost”

　　　　新增:spark-02

　　　　　　 spark-03　　　　//其他兩臺從節點worker，便於一鍵啟動

　　4.傳送修改好的spark解壓資料夾到其他兩臺機器

　　　　scp -r sprk sprk-02:$PWD

　　5.啟動spark，訪問web頁面

　　　　在spark 的sbin目錄下輸入命令：

　　　　./start-all.sh

　　　　然後通過ip:埠號訪問UI介面，如：

　　　　192.168.50.186:8080

四、Spark的UI介面詳解
　　 URL：統一資源定位符，spark-master的訪問地址
　　REST URL：可以通過rest的方式訪問叢集
　　Alive Workers：存活的worker數量
　　cores in use：可以使用的核心數量
　　 Memory in use：可以使用的記憶體大小
　　Applications：正在執行和已經完成的應用程式
　　Driver：通過driver提交的任務情況
　　Status：節點的狀態

Spark-Unit1-spark概述與安裝部署

一、Spark概述　　spark官網：spark.apache.org 　　Spark是用的大規模資料處理的統一計算引擎，它是為大資料處理而設計的快速通用的計算引擎。spark誕生於加油大學伯克利分校AMP實驗室。　　mapreduce（MR）與spark的對比：　　　　1.MR在計算中產生的結

Spark的體系結構與安裝部署

1.Spark的體系結構官方的一張圖：這裡的描述很籠統，只說除了互相的呼叫關係。這是自己找的一張圖：注意：sc物件是spark自己建立的，每次啟動spark的時候都會初始化。不需要繼續建立，是程式的入口。 2.Spark的安裝和部署

spark概述和安裝部署

初識 lock path memory 由於 flat 集群 worker opts 1、spark概述 1、什麽是spark 基於內存的計算引擎，它的計算速度非常快。但是spark僅僅只涉及到數據的計算，沒有涉及到數據的存儲。 2、為什麽學習spark

spark 體驗點滴-client 與 cluster 部署

yarn sem pat 支持 .org img dal 重啟 tor 一. 部署模式原理 When run SparkSubmit --class [mainClass], SparkSubmit will call a childMainClass which i

SPARK 2.2.1 YARN安裝部署

hadoop hadoop2 spa exec file tor blog cluster drive 1、安裝scala：在SparkNode01~03節點安裝： cd /opt tar xzvf scala-2.11.12.tgz mv scala-2.11.12 s

spark-2.2.0 叢集安裝部署以及hadoop叢集部署

Spark在生產環境中，主要部署在安裝Linux系統的叢集中。在linux系統中安裝Spark需要預先安裝JDK、Scala等所需要的依賴。由於Spark是計算框架，所以需要預先在叢集內有搭建好儲存資料的持久化層，如HDFS、Hive、Cassandra等，最後可以通過啟動指令碼執行應用。

菜鳥崛起 DB Chapter 2 MySQL 5.6的概述與安裝

精確圖片 archive 啟動服務數據恢復 odbc 沖突 mysql- sch 在上文菜鳥崛起 DB Chapter 1 數據庫概述我們初步認識了數據庫，也知道市面上常見的幾種數據庫，下面我們就針對常見的MySQL數據庫展開對DataBase的探討。 2.1 My

redis使用基礎（一） ——Redis基本概述與安裝配置

錯誤信息並不是 make load 消息隊列一個多少通過功能 redis使用基礎（一） ——Redis基本概述與安裝配置（轉載請附上本文鏈接——linhxx）一、特性 1、存儲方式 Redis采用Key-Value類型進行存儲，數據存

LAMP+LNMP（二） MySQL/Mariadb概述與安裝實踐

Linux LAMP MySQL一、MySQL/Mariadb概述MySQL是由my sql公司於1995年開發的關系型數據庫管理軟件，mysql開發後多次經過版本更替，最新的是5.7GA/8.0DMR，my sql公司自身也經歷了兩次收購，首先是被sun公司收購，然後被Oracle收購，所以目前MySQL屬

LAMP+LNMP（三）Apache（httpd）概述與安裝實踐

Linux LAMP Apache一、Apache概述 Apache是一個基金會的名字，他開發了httpd程序，後來因為httpd用的人多了，大家就習慣用Apache來指代httpd程序。Apache有很多版本比較流行的有2.2、2.4，最新的是2.4.9ga。Apache使用時有一個和PHP、MySQL、a

Docker概述與安裝(官網譯）

額外 latest ups syslog alt mirrors lan systems roo 1、Docker概述原文地址：https://docs.docker-cn.com/engine/docker-overview/#docker-engine Docke

Nginx 實戰-第一章 nginx 介紹與安裝部署

1.常見webserver介紹 Apache 和Tomcat Apache和Nginx Tomcat和jetty jboss、tomcat、jetty 總結 2.nginx官網和版本介紹 3.nginx功能介紹 4.nginx安裝和部署 4.1 Nginx安裝 –

Java Redis的基礎知識與安裝部署記錄

一.基本介紹 1.Redis的基礎資料型別一共有五種字串(str)、列表（lists）、集合（sets）、有序集合（sorts sets）、雜湊表（hashs） 2.與memcache的區別 1.redis可以用來做儲存(storge)，memcache只能用於快取(cache)

Zookeeper叢集設計與安裝部署（最完整版）

首先準備好3個節點分別為hadoop01、hadoop02、hadoop03，接下來帶著大家一起搭建最小規模的Zookeeper分散式叢集。 1.叢集規劃 1.1主機規劃使用準備的3個節點，搭建一個最小規模的Zookeeper分散式叢集。 1.2軟體規劃

kafka概述與安裝

Kafka概述 hadoop -> 離線計算（hdfs/mapreduce) yarn zookeeper -> 分散式協調(動物管理員) hive ->

Kylin的簡介與安裝部署

一.Kylin的概述官方網址：http://kylin.apache.org/cn/ Apache Kylin™是一個開源的分散式分析引擎，提供Hadoop/Spark之上的SQL查詢介面及多維分析（OLAP）能力以支援超大規模資料，最初由eBay Inc. 開

Maven的概述與安裝（windows）

一、Maven概述？ Maven是Apache下的一個純java開發的開源專案，它是一個專案管理工具，使用maven對java專案進行構建、依賴管理。它最直觀的好處就是能大大減小我們開發的專案的容量大小。比如說我們若要開發一個比較複雜的Web專案，不可避免我們需要匯入很多j

mongoDB資料庫的概述與安裝

1. NoSQL(Not Only SQL ) 意即“不僅僅是SQL” ,指的是非關係型的資料庫常見的NoSql(非關係型資料庫)資料庫 NoSql資料庫優缺點優勢方面主要體現在下面幾點：

大資料排程框架Oozie概述以及安裝部署

一、初步認識Oozie 常用的排程框架： Linux Crontab Azkaban（簡單易用，但是功能不夠全） Oozie Zeus（阿里開源框架） Oozie是一個分散式大資料排程框架，在oozie中，有兩個重要的概念，工作流和排程。所謂工作流，就

KVM虛擬化概述與安裝

ask 很多但是驅動程序 rest config rep 虛擬機所在虛擬化是構建雲計算基礎架構不可或缺的關鍵技術之一,雲計算的雲端系統,其實質上就是一個大型的KVM分布式系統,虛擬化通過在一個物理平臺上虛擬出更多的虛擬平臺,而其中的每一個虛擬平臺則可以作為獨立的終

Spark-Unit1-spark概述與安裝部署

相關推薦