spark RDD建立方式:parallelize,makeRDD,textFile
parallelize
呼叫SparkContext 的 parallelize(),將一個存在的集合,變成一個RDD,這種方式試用於學習spark和做一些spark的測試
scala版本
1 |
|
- 第一個引數一是一個 Seq集合
- 第二個引數是分割槽數
- 返回的是RDD[T]
1 2 3 |
"shenzhen" , "is a beautiful city" ))
|
java版本
1 |
|
- 第一個引數是一個List集合
- 第二個引數是一個分割槽,可以預設
- 返回的是一個JavaRDD[T]
java版本只能接收List的集合
1 |
|
makeRDD
只有scala版本的才有makeRDD
1 |
/* compiled code */ })
|
跟parallelize類似
1 |
|
textFile
呼叫SparkContext.textFile()方法,從外部儲存中讀取資料來建立 RDD
例如在我本地F:\dataexample\wordcount\input下有個sample.txt檔案,檔案隨便寫了點內容,我需要將裡面的內容讀取出來建立RDD
scala版本
1 |
|
java版本
1 |
|