1. 程式人生 > >spark小案例

spark小案例

題目:給定一組鍵值對("spark",2),("hadoop",6),("hadoop",4),("spark",6),鍵值 對的key表示圖書名稱,value表示某天圖書銷量,請計算每個鍵對應的平均值, 也就是計算每種圖書的每天平均銷量。

//對陣列執行parallelize(),得到Array[(String, Int)] = Array((spark,2), (hadoop,6), (hadoop,4), (spark,6))的結果

1.var rdd = sc.parallelize(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6)))

方法A:

//把key相同的key對應的值放到Iterable集合內,得到 Array[(String, Iterable[Int])] = Array((spark,CompactBuffer(2, 6)), (hadoop,CompactBuffer(6, 4)))的結果

2.var groupRdd = rdd.groupByKey

// x 代表groupRdd的每一個元素,第一個為(spark,CompactBuffer(2, 6)),第二個為(hadoop,CompactBuffer(6, 4))。

//._1代表取出這個元組的第一部分,即spark或hadoop

//._2代表取出第二部分,即(2,6)或(6,4),對該集合呼叫sum()為求和,size()為計算集合中有多少個元素

備註:對rdd隨時進行.collect方便得知rdd的內容

3.var result = groupRdd.map(x => (x._1,x._2.sum / x._2.size))

得到Array[(String, Int)] = Array((spark,4), (hadoop,5))

方法B:

1.var d = rdd.mapValues(x => (x,1) )

得到Array[(String, (Int, Int))] = Array((spark,(2,1)), (hadoop,(6,1)), (hadoop,(4,1)), (spark,(6,1)))

2.var dd =

d.reduceByKey((x,y)=>(x._1+y._1,x._2+y._2))

得到Array[(String, (Int, Int))] = Array((spark,(8,2)), (hadoop,(10,2)))

3.var ddd = dd.mapValues(x => x._1/x._2)

得到Array[(String, Int)] = Array((spark,4), (hadoop,5))