Scala高級語法-1
阿新 • • 發佈:2019-05-01
shell 生態圈 登錄 密碼 graphx https 準備工作 submit ive
特點:快、易用、通用性、兼容性(完全兼容Hadoop)
快:快100倍(Hadoop 3 之前)
易用:支持多種語言開發
通用性:生態系統全。
易用性:兼容Hadoop
spark 取代 Hadoop
客戶端:Driver Program 提交任務到集群中。
1、spark-submit
2、spark-shell
Spark課堂筆記
Spark生態圈:
Spark Core : RDD(彈性分布式數據集)
Spark SQL
Spark Streaming
Spark MLLib:協同過濾,ALS,邏輯回歸等等 --> 機器學習
Spark Graphx : 圖計算
重點在前三章
-----------------Spark Core------------------------
一、什麽是Spark?特點?
https://spark.apache.org/
Apache Spark™ is a unified analytics engine for large-scale data processing.
特點:快、易用、通用性、兼容性(完全兼容Hadoop)
快:快100倍(Hadoop 3 之前)
易用:支持多種語言開發
通用性:生態系統全。
易用性:兼容Hadoop
spark 取代 Hadoop
二、安裝和部署Spark、Spark 的 HA
1、spark體系結構
Spark的運行方式
Yarn
Standalone:本機調試(demo)
Worker:從節點。每個服務器上,資源和任務的管理者。只負責管理一個節點。
執行過程:
一個Worker 有多個 Executor。 Executor是任務的執行者,按階段(stage)劃分任務。————> RDD
客戶端:Driver Program 提交任務到集群中。
1、spark-submit
2、spark-shell
2、spark的搭建
(1)準備工作:JDK 配置主機名 免密碼登錄
(2)偽分布式模式
在一臺虛擬機上模擬分布式環境(Master和Worker在一個節點上)
export JAVA_HOME=/usr/java/jdk1.8.0_201
export SPARK_MASTER_HOST=node3
export SPARK_MASTER_PORT=7077
Scala高級語法-1