1. 程式人生 > >spark RDD運算元 parallelize,makeRDD,textFile

spark RDD運算元 parallelize,makeRDD,textFile

- parallelize

將一個存在的集合,變成一個RDD。這種方式試用於學習spark和做一些spark的測試

  1. 第一個引數一是一個 Seq集合
  2. 第二個引數分割槽數
	var array = List(1, 2, 3, 4, 5, 6, 7, 8)
	var rdd = sc.parallelize(array,3)

- makeRDD

只有scala版本的才有makeRDD ,跟parallelize類似。

	var array = List(1, 2, 3, 4, 5, 6, 7, 8)
	var rdd = sc.makeRDD(array)

- textFile

從外部儲存中讀取資料來建立 RDD ,如讀取本地D:\log\system.log。

	var lines = sc.textFile("file:\\D:\log\system.log")