Spark教程(2)-Spark概述及相關元件

阿新 • • 發佈：2018-11-21

1.概述

Spark起源於加州大學伯克利分校RAD實驗室,起初旨在解決MapReduce在迭代計算和互動計算中的效率低下問題.目前Spark已經發展成集離線計算,互動式計算,流計算,圖計算,機器學習等模組於一體的通用大資料解決方案.

2.Spark元件

Spark Core

Spark Core 實現了 Spark 的基本功能，包含任務排程、記憶體管理、錯誤恢復、與儲存系統
互動等模組。
Spark Core 中還包含了對彈性分散式資料集（resilient distributed dataset，簡
稱 RDD）定義。

SparkSQL

SparkSQL是對計算任務的SQL化封裝,類似於Hive.
支援多種資料來源,如Hive,Json等.

Spark Streaming

Spark Streaming是Spark的流式計算元件.

MLlib
機器學習元件,提供了常用的機器學習演算法包.

GraphX
圖計算元件,提供的圖資料庫和常用的圖演算法包.

排程器

支援三種排程器,獨立排程器(Spark自帶)YARN,Mesos.

3.第一個Spark小程式

啟動HDFS,啟動Spark

進入shell
bin/spark-shell
bin/pyspark(Python版)

scala> var lines = sc.textFile("/test/hello.txt")
lines: org.apache.spark.rdd.RDD[String] = /test/hello.txt MapPartitionsRDD[5] at textFile at <console>:24

scala> lines.count()
res3: Long = 3

scala> lines.first()
res4: String = hello Spark!

Spark教程(2)-Spark概述及相關元件

1.概述

2.Spark元件

3.第一個Spark小程式

Spark教程(2)-Spark概述及相關元件

Spark教程(2)-Spark概述及相關組件

[Swift4.2實際操作]九、完整例項-(7)登入頁面：建立自定義檢視及相關元件

spark 教程三 spark Map filter flatMap union distinct intersection操作

精進之路之AQS及相關元件

SpringCloud（一）微服務概述及SpringCloud元件

Python 教程2 編輯器及編寫簡單應用

2、Hadoop 2.X 概述及生態系統

tcp/ip詳解卷一（筆記2：UDP及相關的協議）

mongodb及相關元件安裝

跟我學storm教程2-並行機制及資料流分組

配置檔案ehcache.xml詳解（2）— 配置及相關

【Android Studio簡易教程】斷點除錯及相關技巧

Spark概述及集群部署

Spark教程(3)-開發環境配置及單詞計數

Spark Streaming（03）——Dstream及相關操作

第2章 Spark及其生態圈概述

Spark Streaming 教程文件--概述、基本概念、效能調優

Spark各種模式的環境搭建及相關工作流程介紹

Spark RDD--2 計算日誌相關資料

Spark教程(2)-Spark概述及相關元件

1.概述

2.Spark元件

3.第一個Spark小程式

相關推薦