1. 程式人生 > >spark運算元join講解

spark運算元join講解

1.Join是什麼

join定義如下:

def
join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))]
     join方法是對兩個需要連線的RDD進行內連線操作,然後對每個key下的元素進行笛卡兒積操作,返回的結果再展平。

注意:是內連線

2.產生兩個RDD

 val rdd1 = sc.parallelize(Array(("aa",1),("bb",2)))

 val rdd2 = sc.parallelize(Array(("aa",3),("dd",1)))

3.進行join操作

val joincl = rdd1.join(rdd2)

4.使joincl變成collect集合

val joincl2= joincl.collect()

5.遍歷輸出集合

for (i <- 0 to joincl2.length-1){
      println(joincl2(i))
    }
結果為:(aa,(1,3))

6.完整程式碼及結果


7.相關運算元講解