spark初識一

阿新 • • 發佈：2019-02-16

spark 介紹

spark是一個實現快速通用的叢集計算平臺。它是由加州大學伯克利分校AMP實驗室開發的通用記憶體平行計算框架，用來構建大型的、低延遲的資料分析應用程式。它擴充套件了廣泛使用的MapReduce計算模型。高效的支撐更多計算模式，包括互動式查詢和流處理。spark的一個主要特點是能夠在記憶體中進行計算，及時依賴磁碟進行復雜的運算，Spark依然比MapReduce更加高效。

spark一個大一統的軟體棧

Spark的各個元件如圖所示：

Spark軟體棧

Spark Core 實現了Spark的基本功能：任務排程、記憶體管理、錯誤恢復、儲存系統互動模組以及彈性分散式資料集api定義
Spark Sql 是Spark來操作結構化資料的程式包，可以讓我使用SQL語句的方式來查詢資料，Spark支援多種資料來源，包含Hive表，parquest以及JSON等內容。

Spark Streaming 是Spark提供的實時資料進行流式計算的元件。
Mlib 是Spark中提供的常見的機器學習功能的程式庫。
GraphX 是一種操作圖的程式庫。可以進行並行的圖計算。
叢集管理器高效的執行在一個計算節點到數千個計算節點伸縮計算。

應用場景

Yahoo將Spark用在Audience Expansion中的應用，進行點選預測和即席查詢等

淘寶技術團隊使用了Spark來解決多次迭代的機器學習演算法、高計算複雜度的演算法等。應用於內容推薦、社群發現等

騰訊大資料精準推薦藉助Spark快速迭代的優勢，實現了在“資料實時採集、演算法實時訓練、系統實時預測”的全流程實時並行高維演算法，最終成功應用於廣點通pCTR投放系統上。

優酷土豆將Spark應用於視訊推薦(圖計算)、廣告業務，主要實現機器學習、圖計算等迭代計算。

核心概念簡介

在每個Spark程式執行過程中，我們都是由一個驅動器程式(SparkContext)發起來併發叢集上的各種並行操作。並且驅動程式主要包含在main函式中。定義了叢集上的分散式資料集。
我們建立好SparkConext之後就可以建立RDD,在此基礎上進行各種操作，如collect,count等等
在我們執行這些操作的時候，驅動程式一般會管理多個執行器節點。這個節點是跟在配置的cpu核心數有關。1:1的對比關係。核心數越多代表我們並行的任務越多

執行器

4. 程式碼簡單實現

@Component
public class SparkTest implements Serializable {

	
	@Autowired
	private transient JavaSparkContext  scContext;
	
	public void  sparkContextTest() {
		SparkConf  conf = new SparkConf().setMaster("local").setAppName("My App Test");		
	}
}

maven 配置檔案

  <properties>		
          <scala.version>2.10.4</scala.version>
          <spark.version>1.6.2</spark.version>
		
	</properties>

	<!-- spark 相關內容 -->
		 <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.10.4</version>
        </dependency>
        
            <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>${spark.version}</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>log4j</groupId>
                    <artifactId>log4j</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-launcher_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
	</dependencies>

構建完成我們第一個程式。

spark初識一

spark 介紹spark是一個實現快速通用的叢集計算平臺。它是由加州大學伯克利分校AMP實驗室開發的通用記憶體平行計算框架，用來構建大型的、低延遲的資料分析應用程式。它擴充套件了廣泛使用的MapReduce計算模型。高效的支撐更多計算模式，包括互動式查詢和流處理。spar

Scala學習之路（一）Spark初識

海量處理 apache .org 流式 height 計算平臺提高結構化數據一、官網介紹官網地址：http://spark.apache.org/ Apache Spark™是用於大規模數據處理的統一分析引擎。從右側最後一條新聞看，Spar

spark 教程一 RDD和核心概念

coalesce reg ntb red gre 保存所有 lec 會有 1.RDD 的介紹　　RDD 是spark的核心概念，可以將RDD是做數據庫中的一張表，RDD可以保存任何類型的數據，可以用API來處理RDD及RDD中的數據，類似於Mapreduce， RDD

ubuntu初識一（裝機）

版本裝機這一 sda 是你 img 操作分享其他 ---恢復內容開始--- 博主使用的是ubuntu gnome 17.04，因為博主很喜歡gnome3的主題環境，雖然有很多人覺得gnome3反人類，但是我覺得喜歡就好，博主就不喜歡桌面亂亂的，gnome3桌面清爽，

MVC 之初識(一)

什麽 bsp err 項目 ngs 配置文件 first 信息生成創建一個mvc項目，在項目中會startup.cs文件，startup文件主要是將項目尋找一個宿主過去，項目一般都是寄宿在iis上的，通過owin可以寄宿到不同的宿主。可以關閉owin:<app

python初識一

div if else語句發現劃線 true convert keyword 指向 else python2.x與python3.x的區別　　　python2.x中編碼規則為ascii碼，python3.x中為UTF-8，若在python2.x中使用漢字，需要在程序上

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

Spark優化(一)：避免重複RDD

避免建立重複的RDD 通常來說，我們在開發一個Spark作業時，首先是基於某個資料來源（比如Hive表或HDFS檔案）建立一個初始的RDD；接著對這個RDD執行某個運算元操作，然後得到下一個RDD，以此類推，迴圈往復，直到計算出最終我們需要的結果。在這個過程中，多個RD

Redis入門與實踐--Redis初識(一)

Redis 入門到實踐甚贊Redis 高效能Key-Value伺服器多中資料結構豐富的功能高可用分散式支援 Redis 目標 Redis 初始 API的理解和使用 Redis 客戶端的使用 Redis 持久化的

Spark Mlib(一) svm

SVM(Support Vector Machine)指的是支援向量機，是常見的一種判別方法。在機器學習領域，是一個有監督的學習模型，通常用來進行模式識別、分類以及迴歸分析。下面是spark官網給出的例子。原網址為http://spark.apache.org/docs/latest/mll

Spark SQL一步步分析Wifi探針商業大資料案例

該專案主要實現的主要功能: 一是通過探針裝置採集可監測範圍內的手機MAC地址、與探針距離、時間、地理位置等資訊: 二是探針採集的資料可以定時傳送到服務端儲存: 三是利用大資料技術對資料進行人流量等指標的分析。最終以合理的方式展示資料處理結果。資料收集資料收集由伺服器和探針裝置

gRPC初識一

gRPC 客戶端和服務端可以在多種環境中執行和互動 - 從 google 內部的伺服器到你自己的筆記本，並且可以用任何 gRPC 支援的語言來編寫。所以，你可以很容易地用 Java 建立一個 gRPC 服務端，用 Go、Python、Ruby 來建立客戶端。此外，Google 最新 API 將有 g

spark入門系列教程三——spark sql(一）

Spark SQL是用於結構化資料處理的Spark模組，可以通過sql、dataset、dataframe與spark sql進行互動。更多理論性知識請移步官網http://spark.apache.org/docs/2.3.1/sql-programming-guide.html 在spark 2.0以前

Hbulder安裝與正則表示式初識一

Hbulider的安裝 Hbulider主要用來編寫html檔案，正則表示式寫在js頁面中，用此工具對學習正則表示式有很大的幫助 Hbulider的下載網址為http://www.dcloud.

taro初識一

很早之前就聽說京東的凹凸實驗室釋出的開源的一對多的開源框架---Taro,一對多指的是一套程式碼編譯成多端程式碼使用,極大的節省了開發的效率和成本廢話不多說第一步,和vue一樣下載相應的是cli腳手架,和vuecli一樣只需要全域性安裝一次即可 npm install -g @tarojs/c

經典三層框架初識--一.Mybatis

編寫java專案對於Mybatis來說有兩種配置檔案--咱們這裡用xml 全域性配置:至少四個引數 (驅動 url username password)-->來配置連線池 <?xml version="1.0" encoding="UTF-8"?> <!-

經典三層框架初識--一.Mybatis(上)(對上補充)

關於上面的寫的入門案例的補充改進: ①.在我們的全域性配置檔案中我們之前寫的全域性配置檔案是下面這個:mybatis.xml <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE configuratio

經典三層框架初識--一.Mybatis(中),其他案例

做到現在,我們已經配置完全域性配置檔案了,這個配置檔案只要第一次配置好,暫時就不必再理它了.我們以後做的增刪改查的操作都在對映配置中修改就可以了.現在我們來做三個案例,查詢全部,模糊查詢,和插入.插入,修改,刪除除了關鍵字不同外,其他的基本一樣,所以這裡我們就用

Spark Mlib(一)k-menas

spark官網給出的k-means的實現方式，原地址http://spark.apache.org/docs/latest/ml-clustering.html package alg import org.apache.spark.ml.clustering.

Jmeter 初識一

公司使用Jmeter 進行介面測試，遂開建此部落格進行使用記載。軟體執行環境： MacOs 10.13.3 軟體版本： apache-jmeter-4.0 1 . Jmeter的下載，安裝，相關外掛的安裝。 Apache官網下載最新版本的Jmeter

spark初識一

spark 介紹

spark一個大一統的軟體棧

應用場景

核心概念簡介

相關推薦