spark的RDDAPI總結
阿新 • • 發佈:2018-06-07
adding 所有 align gate 過濾 AC 新的 reduce 去掉
下面是RDD的基礎操作API介紹:
操作類型 |
函數名 |
作用 |
轉化操作 |
map() |
參數是函數,函數應用於RDD每一個元素,返回值是新的RDD |
flatMap() |
參數是函數,函數應用於RDD每一個元素,將元素數據進行拆分,變成叠代器,返回值是新的RDD |
|
filter() |
參數是函數,函數會過濾掉不符合條件的元素,返回值是新的RDD |
|
distinct() |
沒有參數,將RDD裏的元素進行去重操作 |
|
union() |
參數是RDD,生成包含兩個RDD所有元素的新RDD |
|
intersection() |
參數是RDD,求出兩個RDD的共同元素 |
|
subtract() |
參數是RDD,將原RDD裏和參數RDD裏相同的元素去掉 |
|
cartesian() |
參數是RDD,求兩個RDD的笛卡兒積 |
|
行動操作 |
collect() |
返回RDD所有元素 |
count() |
RDD裏元素個數 |
|
countByValue() |
各元素在RDD中出現次數 |
|
reduce() |
並行整合所有RDD數據,例如求和操作 |
|
fold(0)(func) |
和reduce功能一樣,不過fold帶有初始值 |
|
aggregate(0)(seqOp,combop) |
和reduce功能一樣,但是返回的RDD數據類型和原RDD不一樣 |
|
foreach(func) |
對RDD每個元素都是使用特定函數
|
spark的RDDAPI總結