第2章 Spark及其生態圈概述

阿新 • • 發佈：2018-12-17

2-1課程目錄

1、Spark及生態圈概述

Spark產生背景 Spark 概述及特點

Spark發展歷史 Spark Survey

Spark對比Hadoop Spark和Hadoop的協作性

Spark開發語言 Spark執行模式

2-2 -Spark概述及特點

官網：https://spark.apache.org/

1、概述

Apache Spark™ is a unified analytics engine for large-scale data processing.

Apache Spad是大規模資料處理的統一分析引擎。

2、特點

1、Speed（快速）

Run workloads 100x faster.

Apache Spark achieves high performance for both batch and streaming data, using a state-of-the-art DAG scheduler, a query optimizer, and a physical execution engine.

2、Ease of Use（使用方便）

Write applications quickly in Java, Scala, Python, R, and SQL.

Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python, R, and SQL shells.

3、Generality（通用）

Combine SQL, streaming, and complex analytics.

Spark powers a stack of libraries including SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming. You can combine these libraries seamlessly in the same application.

4、Runs Everywhere（可以執行在任何處）

Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud. It can access diverse data sources.

You can run Spark using its standalone cluster mode, on EC2, on Hadoop YARN, on Mesos, or on Kubernetes. Access data in HDFS, Apache Cassandra, Apache HBase, Apache Hive, and hundreds of other data sources.

2-3 -Spark產生背景

MapReduce的侷限性

1）程式碼繁瑣

2）只能支援map和reduce方法

3）執行效率低下

4）不適合迭代多次，互動式，流式處理

框架多元化

1）批處理（離線）：MapReduce、HIve、Pig

2）流式處理（實時）：Storm、JStorm

3）互動式計算：Impala

學習、運維成本無形中提高了很多

===》Spark

2-4 -Spark發展歷史

2-5 -Spark Survey

2-6 -Spark對比Hadoop

2-7 -Spark和Hadoop的協作性

第2章 Spark及其生態圈概述

2-1課程目錄 1、Spark及生態圈概述 Spark產生背景 Spark 概述及特點 Spark發展歷史 Spark Survey Spark對比Hadoop Spark和Hadoop的協作性 Spark開發語言 Spark執行模式 2-2 -Spark概述及特點官網

Spark 及其生態圈

背景產生於加州大學伯克利分校AMP實驗室，2013年6月成為Apache成為孵化專案，Spark使用Scala語言進行實現，Scala 建立在JAVA之上設計理念：改善 MAP REDUCE 的弱點：互動式和迭代式，在叢集多點記憶體中執行的

Spark入門實戰系列--1.Spark及其生態圈簡介

對於Spark Streaming來說，其RDD的傳承關係如下圖所示，圖中的每一個橢圓形表示一個RDD，橢圓形中的每個圓形代表一個RDD中的一個Partition，圖中的每一列的多個RDD表示一個DStream（圖中有三個DStream），而每一行最後一個RDD則表示每一個Batch Size所產生的中間結果

實戰1.Spark及其生態圈簡介

1、簡介 1.1 Spark簡介 Spark是加州大學伯克利分校AMP實驗室（Algorithms, Machines, and People Lab）開發通用記憶體平行計算框架。Spark在2013年6月進入Apache成為孵化專案，8個月後成為Apache頂級專案，速度

第2章 GNS3和PacketTracer網絡模擬器（1）_GNS3概述

下載功能安裝位置 ges images 項目目錄捕獲 png 編寫 1. 安裝和配置GNS3 1.1 GNS3概述（1）GNS3是一款具有圖形化界面，可運行在多平臺（包括Windows、Linux、Mac OS等）上面的網絡虛擬軟件。（2）可以在虛擬環境中運行Ci

Learning Spark中文版--第六章--Spark高級編程（2）

做的 sin exchange lds 距離應用 learning unix 調整 Working on a Per-Partition Basis（基於分區的操作）以每個分區為基礎處理數據使我們可以避免為每個數據項重做配置工作。如打開數據庫連接或者創建隨機數生成器這樣

第 2 章 C語言概述

2.1C語言的一個簡單例項 #include <stdio.h> int main(void) /*一個簡單的C程式*/ { int year; /*宣告一個名為year的變數*/ year = 2018; /*賦值為20

c primer plus--C語言概述(第2章)--習題

因為轉專業的原因，算是半路出家吧。所以開這個部落格的想法是想記錄自己的學習過程，也許還能提高文字輸出能力（逃）第二章 C語言概述----2.12練習 1.編寫一個程式，呼叫printf()函式在一行上輸出姓名，再呼叫一次printf()函式在兩個單獨的行上輸出名和姓，然後呼

《Java多執行緒程式設計實戰》——第2章設計模式及其作用

設計模式與三十六計多執行緒設計模式簡介不使用鎖的情況下保證執行緒安全 Immutable Object（不可變物件）模式 Thread Specific Storage（執行緒特有儲存）模式 Serial Thread Confinement（序列執行緒封

Atitit 計算機系統結構計算機系統結構 Cpu 儲存 cache 指令系統目錄 Line 56: 第2章指令系統設計指令格式定址方式 1 Line 64: 第3章CPU及其實現

Atitit 計算機系統結構計算機系統結構 Cpu 儲存 cache 指令系統目錄 Line 56: 第2章指令系統設計指令格式定址方式 1 Line 64: 第3章CPU及其實

《機器學習實戰》第2章閱讀筆記1 K近鄰演算法概述

K近鄰演算法採用測量不同特徵值之間的距離方法進行分類。 K-近鄰演算法工作原理：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中的每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入每一標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，然後提取

第4章 Spark SQL概述

4-1 課程目錄 Spark SQL前世今生 SQL on Hadoop常用框架介紹 Spark SQL概述 Spark SQL願景 Spark SQL架構 4-2 -Spark SQL前世今生為什麼使用SQL 1）事實上的標準 2）簡單易用 3）受眾面大

第2章 GNS3和PacketTracer網路模擬器（1）_GNS3概述

1. 安裝和配置GNS3 1.1 GNS3概述（1）GNS3是一款具有圖形化介面，可執行在多平臺（包括Windows、Linux、Mac OS等）上面的網路虛擬軟體。（2）可以在虛擬環境中執行Cisco IOS，模擬Cisco Router、Cisco ASA、Ci

RDIFramework.NET ━ .NET快速資訊化系統開發框架-第2章產品概述

　　第2章產品概述　　2.1 產品用途　　RDIFramework.NET，基於.NET的快速資訊化系統開發、整合框架，為企業或個人在.NET環境下快速開發系統提供了強大的支援，開發人員不需要開發系統的基礎功能和公共模組，框架自身提供了強大的函式庫和開發包，開發人員只須集中精力專注於業務部分

《深入理解Spark：核心思想與原始碼分析》（第2章）

《深入理解Spark：核心思想與原始碼分析》一書第一章的內容請看連結《第1章環境準備》本文主要展示本書的第2章內容： Spark設計理念與基本架構 “若夫乘天地之正，而御六氣之辯，以遊無窮者，彼且惡乎待哉？” ——《莊子·逍遙遊》 n本章導讀：上一章，介紹了Spark環境的搭建，為方便讀

C_Primer第2章 C語言概述

本章介紹以下內容：運算子函式:main()、printf() 編寫一個簡單的C程式建立整形變數，為其賦值並在螢幕上顯示其值換行字元如何在程式中寫註釋，建立包含多個函式的程式，發現程式的錯誤什麼是關鍵字 2.1 簡單的C程式示例 #

Python語言程式設計（MOOC崇天）第九章python計算生態概述學習筆記（霍蘭德人格分析雷達圖+玫瑰花製作）

複習：今日學習： python計算生態概述從資料出來到人工智慧 python庫之資料分析 numpy： pandas： Scipy： python庫之資料視覺化 Matpl

Java本機介面規範內容第2章：設計概述

本章重點介紹JNI中的主要設計問題。本節中的大多數設計問題都與本機方法有關。本章包括以下主題：目錄非同步異常異常處理本機程式碼通過呼叫JNI函式來訪問Java VM功能。 JNI函式可通過介面指標

大資料概述及其生態圈（一）

大資料是什麼經常聽別人說“我要去學習大資料”，乍一聽大資料應該是某個技術。百度解釋：無法在規定時間內用給現有的常規軟體工具對其內容進行抓取、管理和處理的資料集合。通俗講，大資料就是大到難以處理的資料集合，是社會技術發展過程中碰到的棘手問題。於是，我們

重讀《學習JavaScript資料結構與演算法-第三版》-第2章 ECMAScript與TypeScript概述

定場詩八月中秋白露，路上行人淒涼；小橋流水桂花香，日夜千思萬想。心中不得寧靜，清早覽罷文章，十年寒苦在書房，方顯才高志廣。

第2章 Spark及其生態圈概述

2-1課程目錄

1、Spark及生態圈概述

Spark產生背景 Spark 概述及特點

Spark發展歷史 Spark Survey

Spark對比Hadoop Spark和Hadoop的協作性

Spark開發語言 Spark執行模式

2-2 -Spark概述及特點

1、概述

2、特點

1、Speed（快速）

2、Ease of Use（使用方便）

3、Generality（通用）

4、Runs Everywhere（可以執行在任何處）

2-3 -Spark產生背景

MapReduce的侷限性

框架多元化

2-4 -Spark發展歷史

2-5 -Spark Survey

2-6 -Spark對比Hadoop

2-7 -Spark和Hadoop的協作性

相關推薦