1. 程式人生 > >Spark學習之RDDs介紹

Spark學習之RDDs介紹

什麼是RDDS?

RDDS即Resilient distributed datasets(彈性分散式資料集)。
Spark中,所有計算都是通過RDDs的建立,轉換,操作完成的。
一個RDD是一個不可改變的分散式集合物件。

Driver Program

包含程式的main方法,RDDs的定義和操作。
它管理很多節點,我們稱之為excetor。

Spark Context

Driver Program是通過SparkContext物件訪問spark。
SparkContext物件代表和一個叢集的連線。
在Shell中SparkContext自動建立好了,就是sc。

分片

每個分片包含一部分資料,partitions可在叢集的不同節點上計算。
分片是spark並行執行的單元,spark是順序的,並行的處理分片。

RDDs的建立方法

1

把一個存在的集合傳給Sprakcontext的parallelize()方法,用於測試

var rdd = sc.parallelize(Array(1,2,2,4),4)

其中,第一個引數表示待並行化處理的集合,第二個引數:分片的個數。

2

載入外部資料集

val rddText = sc.textFile('helloSpark.txt')