1. 程式人生 > ><Spark快速大數據分析>讀書筆記(二)

<Spark快速大數據分析>讀書筆記(二)

body 數據 單詞 spa line lin pairs clas art

PART 3 Pair RDD

  Spark為包含鍵值對類型的RDD提供了專有操作,這類RDD叫做Pair RDD(意為“對RDD”)

  Spark中Pair RDD的創建主要有兩種方式,一種方式從存儲了鍵值對數據的文件中創建(主要內容見PART 4),另一種方式可以從其他普通RDD調用map()操作來實現:

1 #line的元素是一行單詞構成的句子,map操作後每個元素為該句子的首個單詞和句子本身構成一個二元元組
2 pairs = line.map(lambda x: (x.split(" ")[0], x))

PART 4 數據讀取與保存

<Spark快速大數據分析>讀書筆記(二)